說明:中文維基百科的繁簡、地區詞處理/轉換原理
外觀
| ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
本頁簡單介紹1.4版軟件的繁簡轉換原理,以使大家可以有效處理轉換時遇到的錯誤。
參看m:Automatic conversion between simplified and traditional Chinese
與分詞的關係
[編輯]轉換程式用最簡單的「最大匹配法」來轉換。會導致以下錯誤:假設轉換表有一對應關係為:
内存 => 記憶體
現轉換以下句子:
人体内存在很多微生物
基於「最大匹配法」,系統會轉換「内存」,得到「記憶體」。整個句子將會被錯誤地轉換成:
人體記憶體在很多微生物
解決這個問題的根本方法是用智能的斷詞匹配,將上述句子先拆分為:
人体 内 存在 很多 微生物
然後再單獨轉換每個詞。
在有這種智能的斷詞系統成熟並部署至MediaWiki前,有兩種方法修正上述錯誤:
- 親手將涉及斷詞錯誤的詞分開:人體內-{}-存在很多微生物
- 將涉及斷詞錯誤的多個詞作為整體加到定製轉換表裏,如「体内存在 => 體內存在」。(註:目前只有管理員能編輯轉換表,一般人可以向管理員提出申請。)
不檢測原始字體
[編輯]由於我們允許在同一文章內繁簡體混用,因而不可能判斷一個詞其原型是繁體還是簡體。這就需要在繁體/簡體用字相同的情況下,同時定義兩條轉換關係。例如:「電影集團」(繁)應轉成「电影集团」(簡),注意這裏需要特殊轉換的是「影集」,因其預設轉換為「电视系列剧」。那麼在轉換表中,我們要有兩條對應:
電影集團=>电影集团 电影集团=>電影集團
這是因為簡體用戶會直接寫「电影集团」,如果沒有第二條轉換關係的話,在簡體顯示下會變成「电电视系列剧团」。
「影集 电视系列剧 电影集团 電影集團」在您的顯示模式下效果為:影集 電視系列劇 電影集團 電影集團