說明:中文維基百科的繁簡、地區詞處理/轉換原理

字詞轉換
主頁 討論
轉換請求
錯誤修復請求
地區詞候選
轉換介紹
字詞轉換處理 討論
  繁簡處理 討論
  地區詞處理 討論
  公共轉換組 討論
說明文件
繁簡與地區詞處理 討論
  轉換原理 討論
  手動轉換 討論
  進階語法 討論
  用字模式選擇說明
相關模板
NoteTA 全文字詞轉換
CGroup 公共轉換組列表
Lan 介面文字轉換
地區用詞 地區詞模板
地區用詞2 進階地區詞模板
各地中文名 地區用詞資訊框
檢視 - 討論 - 編輯 - 變動

本頁簡單介紹1.4版軟體的繁簡轉換原理,以使大家可以有效處理轉換時遇到的錯誤。

參看m:Automatic conversion between simplified and traditional Chinese

與分詞的關係

轉換程式使用最簡單的「最大匹配」法進行轉換。這會導致如下的錯誤:假設轉換詞庫中有一對應關係為

内存 => 記憶體

現對以下句子轉換

人体内存在很多微生物

基於最大匹配,系統會對「内存」進行轉換,得到「記憶體」。整個句子將會被錯誤地轉換成

人體記憶體在很多微生物

解決這個問題的根本方法是採用智慧的分詞匹配,將上述句子先拆分為

人体 内 存在 很多 微生物

然後再對每個詞單獨轉換。

在分詞系統實現之前,要修正上述錯誤,可以有兩種方法:

  1. 手工將涉及分詞錯誤的詞分開:「人体内-{}-存在很多微生物」
  2. 將涉及分詞錯誤的多個詞作為一個整體加到訂製轉換表裡,如「体内存在 => 體內存在」。

不檢測原始字體

由於我們允許在同一文章內繁簡體混用,因而不可能判斷一個詞其原型是繁體還是簡體。這就需要在繁體/簡體用字相同的情況下,同時定義兩條轉換關係。例如:「電影集團」(繁)應轉成「电影集团」(簡),注意這裡需要特殊轉換的是「影集」,因其預設轉換為「电视系列剧」。那麼在轉換表中,我們要有兩條對應:

電影集團=>电影集团
电影集团=>電影集團

這是因為簡體用戶會直接寫「电影集团」,如果沒有第二條轉換關係的話,在簡體顯示下會變成「电电视系列剧团」。

「影集 电视系列剧 电影集团 電影集團」在您的顯示模式下效果為:影集 電視系列劇 電影集團 電影集團