說明:中文維基百科的繁簡、地區詞處理/轉換原理
| ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
|
本頁簡單介紹1.4版軟體的繁簡轉換原理,以使大家可以有效處理轉換時遇到的錯誤。
參看m:Automatic conversion between simplified and traditional Chinese
與分詞的關係
轉換程式使用最簡單的「最大匹配」法進行轉換。這會導致如下的錯誤:假設轉換詞庫中有一對應關係為
内存 => 記憶體
現對以下句子轉換
人体内存在很多微生物
基於最大匹配,系統會對「内存」進行轉換,得到「記憶體」。整個句子將會被錯誤地轉換成
人體記憶體在很多微生物
解決這個問題的根本方法是採用智慧的分詞匹配,將上述句子先拆分為
人体 内 存在 很多 微生物
然後再對每個詞單獨轉換。
在分詞系統實現之前,要修正上述錯誤,可以有兩種方法:
- 手工將涉及分詞錯誤的詞分開:「人体内-{}-存在很多微生物」
- 將涉及分詞錯誤的多個詞作為一個整體加到訂製轉換表裡,如「体内存在 => 體內存在」。
不檢測原始字體
由於我們允許在同一文章內繁簡體混用,因而不可能判斷一個詞其原型是繁體還是簡體。這就需要在繁體/簡體用字相同的情況下,同時定義兩條轉換關係。例如:「電影集團」(繁)應轉成「电影集团」(簡),注意這裡需要特殊轉換的是「影集」,因其預設轉換為「电视系列剧」。那麼在轉換表中,我們要有兩條對應:
電影集團=>电影集团 电影集团=>電影集團
這是因為簡體用戶會直接寫「电影集团」,如果沒有第二條轉換關係的話,在簡體顯示下會變成「电电视系列剧团」。
「影集 电视系列剧 电影集团 電影集團」在您的顯示模式下效果為:影集 電視系列劇 電影集團 電影集團