詞義消歧
計算機語言學中,詞義消歧是一個自然語言處理和本體論的開放問題。歧義與消歧是自然語言理解中最核心的問題,在詞義、句義、篇章含義層次都會出現語言在上下文語義不同的現象,消歧即根據上下文確定對象語義的過程。詞義消歧即在詞語層次上的語義消歧。語義消歧(詞義消歧) 是自然語言處理任務的一個核心與難點,影響了幾乎所有任務的性能,比如搜索引擎、意見挖掘、文本理解與產生、推理等。
在語言學長期發展的過程中,語言本身積累了許多一詞多義的用法。語言的產生是多方面共同作用的結果。語言的使用是不斷變化的,一個詞在發展中有許多具體的意思,現在通用的還有一些意思。不同地區可能對一個詞有不同的用法,不同的行業對一個詞的用法也會不同,甚至不同群體、不同個人、不同語氣都會有自己的特殊的解讀意思。語義消歧是一種語言理解的方式,一方面我們要理解通用詞語一詞多義的含義及應用,另一方面,還要考慮到具體場景,運用相關知識庫、語料訓練來增加一詞多義的性能。
迄今為止,豐富多樣的技術已經被研究:以詞典為基礎的方法、使用知識庫與知識圖譜技術的、監督學習的、無監督的、半監督的、基於詞或者詞向量的。
困難
詞典
基於詞典的語義消歧依賴於詞典對語義的區分。粒度的一詞多義指區分較大的語義,比如水,可能表示自然水,也可能指水貨;細粒度的一詞多義指能區分較小不同的語義。如果詞典缺少某一層次或某一些語義的描述,以詞典作為詞語義的完全描述就會導致問題。這個特點對詞義消歧與實體鏈接同樣適用。解決這個問題的辦法是:對描述較少的語義聚集自動增量增加聚類分析。
英文裡常用的字典包括WordNet、Roget's Thesaurus、BabelNet。任意語言都可以把常用的字典、詞典、網絡百科、專業知識庫或數據庫作為消歧的詞典文件。[1]
詞性標註
詞性標註與詞義消歧是相互關聯的兩個問題,在人的系統他們同時能到滿足。但是目前系統一般並不能讓二者公用參數,同時輸出。語義理解,包括分詞、詞性標註、詞義消歧、句法解析、語義解析並不是前饋的,是相互依賴的存在反饋的。
詞性標註與語義消歧都要依賴上下文來標註,但是詞性標註比語義消歧要簡單以及成功。原因主要是詞性標註的標註集合是確定的,而語義消歧並沒有,並且量級要大的多;詞性標註的上下文依賴比語義消歧要短。
judge依賴
有時候人也不能很好地判斷一個詞屬於哪個意思。對於粗粒度的區分肯定比細粒度的高。所以一般選擇粗粒度的任務,因為需要使用人的判斷作為黃金標準。[2]
語用學
許多研究者認為要做到詞義消歧,需要理解語用學、一些常識。[誰說的?]語言學本身就是與知識緊密結合的,肯定需要語言相關的常識幫助解析,就像實體消歧需要實體的相關的知識一樣。
不同任務使用詞義消歧的區別
不同的任務具體詞義消歧會不同。比如翻譯,不一定顯式地輸出詞義消歧中間結果,只需要最後的句子的同義。
多義的定義
人們一般能在粗粒度的定義上獲得一致的看法,當它到達更細的粒度,則很難統一。並且即便同個語義,在不同的環境裡,也許還會有不同,因為語言表達有無限的可能性,導致語義在細粒度可能會遷移。
參考資料
- ^ A. Moro, A. Raganato, R. Navigli.
- ^ Snyder & Palmer 2004,第41–43頁.