說明:中文維基百科的繁簡、地區詞處理/轉換原理


主頁	討論

本頁簡單介紹1.4版軟件的繁簡轉換原理，以使大家可以有效處理轉換時遇到的錯誤。

與分詞的關係

轉換程式用最簡單的「最大匹配法」來轉換。會導致以下錯誤：假設轉換表有一對應關係為：

内存 => 記憶體

現轉換以下句子：

人体内存在很多微生物

基於「最大匹配法」，系統會轉換「内存」，得到「記憶體」。整個句子將會被錯誤地轉換成：

人體記憶體在很多微生物

解決這個問題的根本方法是用智能的斷詞匹配，將上述句子先拆分為：

人体 内 存在 很多 微生物

然後再單獨轉換每個詞。

在有這種智能的斷詞系統成熟並部署至MediaWiki前，有兩種方法修正上述錯誤：

由於我們允許在同一文章內繁簡體混用，因而不可能判斷一個詞其原型是繁體還是簡體。這就需要在繁體／簡體用字相同的情況下，同時定義兩條轉換關係。例如：「電影集團」（繁）應轉成「电影集团」（簡），注意這裏需要特殊轉換的是「影集」，因其預設轉換為「电视系列剧」。那麼在轉換表中，我們要有兩條對應：

電影集團=>电影集团
电影集团=>電影集團

這是因為簡體用戶會直接寫「电影集团」，如果沒有第二條轉換關係的話，在簡體顯示下會變成「电电视系列剧团」。

「影集电视系列剧电影集团電影集團」在您的顯示模式下效果為：影集電視系列劇電影集團電影集團