說明:中文維基百科的繁簡、地區詞處理/轉換原理


主頁	討論

本頁簡單介紹1.4版軟體的繁簡轉換原理，以使大家可以有效處理轉換時遇到的錯誤。

與分詞的關係

轉換程式使用最簡單的「最大匹配」法進行轉換。這會導致如下的錯誤：假設轉換詞庫中有一對應關係為

内存 => 記憶體

現對以下句子轉換

人体内存在很多微生物

基於最大匹配，系統會對「内存」進行轉換，得到「記憶體」。整個句子將會被錯誤地轉換成

人體記憶體在很多微生物

解決這個問題的根本方法是採用智慧的分詞匹配，將上述句子先拆分為

人体 内 存在 很多 微生物

然後再對每個詞單獨轉換。

在分詞系統實現之前，要修正上述錯誤，可以有兩種方法：

由於我們允許在同一文章內繁簡體混用，因而不可能判斷一個詞其原型是繁體還是簡體。這就需要在繁體／簡體用字相同的情況下，同時定義兩條轉換關係。例如：「電影集團」（繁）應轉成「电影集团」（簡），注意這裡需要特殊轉換的是「影集」，因其預設轉換為「电视系列剧」。那麼在轉換表中，我們要有兩條對應：

電影集團=>电影集团
电影集团=>電影集團

這是因為簡體用戶會直接寫「电影集团」，如果沒有第二條轉換關係的話，在簡體顯示下會變成「电电视系列剧团」。

「影集电视系列剧电影集团電影集團」在您的顯示模式下效果為：影集電視系列劇電影集團電影集團