中文詞彙網路沿革
 

《中文的意義與詞義》目的是在提供完整的中文詞義(sense)區分資料。我們相信詞義的區分與表達,必須建立在完善的詞彙語意學(lexical semantics) 理論與知識本體(ontology)架構基礎上。在詞義理論與認知研究方面,這個詳細分析的詞彙知識庫系統,將成為基本參考資料。在實際的應用上,這個資料庫可望成為中文語言處理與知識工程不可或缺的基底架構。

我們藉著累積了三年多的研究成果,對詞義區分定義,與詞義表達方式,漸次做了修正。過程中,也曾把架構與方法在香港城市大學,北京大學等國內外相關研究機關報告;以及在「中文詞彙詞義學研討會」(CLSW4,CLSW5, CLSW6)PACLIC等幾個國際研討會,向同行請教,得到了許多有價值的建議。也在「意義與詞義」群體計畫同仁的建議與協助下,完成了詞義表達的資料庫與維護系統。2004年開始另一個重要的工作項目,是同時進行在研究院語料庫上的詞義標示。這個工作是雙管齊下的。一方面由本研究小組,利用資訊所陳克健教授開發的標示工具,在詞義分析完後,將確定的詞義直接標在例句上。另一方面,由東吳大學柯淑津教授帶領的研究小組,則是用機器學習的技術,把標記的範圍擴展到整個語料庫。我們希望這個詞義標記語料庫,也可以很快提供給國際學界研究參考用。

本網站在2006年啟用,也就是我們的詞義區分資料庫正式上網,提供給各界檢索使用。這一方面顯示了我們的工作,已累積了一定的成果,一方面也表現了在漢語詞義分析的理論與方法上,經過了大量實做的驗證,有了可靠的成績。

本網站的內容目前以中頻詞為主,累積的成果,共有5600個詞形,13160個詞義。網站資料將與每年年初出版的技術報告內容作同步更新。

在詞義區分資料庫的建構過程中我們獲得許多先進學者的寶貴建議,無法一一致謝。但有幾位是非提不可的:包括陳克健教授,何大安教授與鄭錦全院士。蘇以文,高虹,賴惠玲,白梅麗(Marie-Claude Paris)等幾位教授都在不同的時間參與了部分討論,給了我們寶貴的建議。當然,其中難免還有未改正的錯誤,我們會在虛心求教於大方後,在將來改進完善。

 

系列主編
黃 居 仁 謹誌