創新漢字的檢索和排序方法

(第一屆國際漢字書同文學術研討會論文)

報告人：王堯世(台北、Ｅ碼發明者)

提要：漢字很美，但更有靈性。它是世界上少有的以形表意的文字。由這個特性和配合電腦賜給我們的條件，筆者導出了“中英象形”(註1.)的創新觀念，并以此解決了困擾中國人兩千多年的漢字檢索和排序問題。

第一節、漢字傳統的檢索方法及其優缺點

㈠漢字的部首檢索法

漢字傳統的檢索方法，是部首筆劃檢字法。該法由許慎(约58年—约147年)在其著作《說文解字》中所首創，後經明朝梅膺祚所著《字彙》一書(书成于公元1615年)中加以改良，至今已沿用了將近400年，成为這一時期漢字最主要的檢索方法。

⑴優點

該法主要的貢獻是使漢字有了具體可行的檢索方法，且長時間被廣泛大眾所使用，其在文化上厥功甚偉。

⑵缺點

該法的主要缺點在於：①部首數量太多，使用不便。②部首在字中的位置不明確，容易造成誤區。③查字數筆劃太費時間，手續太繁瑣，速度太慢。

第二節、漢字現行的檢索方法及其優缺點

㈠漢字的拼音檢索法

由於部首筆劃檢字法有以上諸多缺點，于是有人想到另一種古老的檢字方法，那就是利用漢字的讀音，較著名的如《广韵》（1008年）。不過現代有了注音符號和漢語拼音，改進了切音的方法，自是更為精準。

⑴優點

由於現代國民基礎教育强化了漢字的讀音教學，使時下的年青人一般都有相當的注音或拼音基礎，這就是时下一般中文字典和詞典多使用字音檢索的根本原因，因为使用者不必再學别的檢索方法。

⑵缺點

可惜這種搭便車的檢索方法，不合漢字〔一字多音又多字同音〕的天性。該法的主要缺點在於：①同音字太多，查字還是不快。②不知讀音的字或詞不能查，成为字典或詞典中一大盲點。③用讀音排序的字典或詞典，攪亂了筆劃部首在識字方面的優點，破好的，立差的，實為憾事。

正因為字音的檢索方法有以上嚴重的缺點，所以凡字音檢索方法的字典或詞典，又都附加了部首筆劃檢索法作為備用，以補不足。這種雙軌現象，正充分說明了，漢字的檢索問題，尚没有合理解決。

第三節、漢字檢索方法的創新

㈠漢字的特性

創新的方法，必須符合漢字的特性，才能發揮漢字的優勢，這是基本原則。漢字有以下三種特性：

⑴以形表意

漢字是世界上少有的以形表意的文字，這一點很重要。因為以形表意，所以用眼睛看為主，用耳朵聽只是其次。關於漢字的檢索方法，亦應本此。

⑵方塊特性

漢字又是世界上少有的方塊文字，與線條形的拼音文字完全不同。拼音文字的字母從左向右按序排列，拆解毫無困難。方塊文字是平面的結構，拆解十分困難。這是漢字檢索和輸入現代化根本困難的所在，亦是本文創新的重點。

⑶多音特性

漢字也是世界上少有的多音字，同一個字有許多不同的讀音。許多不同的字，又有相同的讀音。這說明：漢字不宜單獨用字音的方法檢索(事實已見本文第二節)。

㈡漢字的屬性

⑴字型的屬性

由於漢字是方塊字，它的結構，可以横向左右分、縱向上下分、包含内外分、以及拆分困難的獨體字和串筆字。舉例說明如下：

①左右型漢字：如〔他們、拍球、說話〕等為二分字。〔做、湖、謝〕等為三分字。無論二分或三分，都歸併为左右型。左右型漢字最多，約佔總字數的70.2％。檢索中用字型符號〔U〕。

②上下型漢字：如〔古、呆、杏、李〕等為二分字。〔三、宴、草〕等為三分字。〔喜、量、暮〕等為四分字。〔熹、壽、寰〕等為多分字。無論二分至多分，都歸併為上下型。上下型漢字次多，約佔總字數的22.1％。檢索中用字型符號〔I〕。

③包含型漢字：如〔國、因、困〕等为四面全包。〔同、周、問、凶〕等為三面包。〔司、后、遠、趙〕等為二面包。無論全包、三面包或二面包，都歸併为包含型。包含型漢字第三多，約佔總字數的7.2％。檢索中用字型符號〔V〕。

④獨體型漢字：指不宜拆分的基本漢字，如〔人、耳、目、日、月、山、木〕等皆為獨體字。獨體字不多，約佔總字數的0.3％。獨體字因不拆分，故不用字型符號。

⑤串筆型漢字：指漢字上下有直筆貫穿而不易拆分的漢字，如〔十、中、丰、串、聿、求、事、〕等皆為串筆字。串筆字為本法所創設，字數最少，僅佔總字數的0.1％。串筆字因不拆分，也不用字型符號。

⑵字型的首尾

漢字依結構方式，分左右型、上下型、包含型、獨體字和串筆字後，即可依視覺直觀和書寫習慣，取得其形首、形尾二個字元(註2.)。舉例說明如下：

①左右型漢字：形首在字的左邊或左上角，形尾在字的右邊或右下角。如〔阿〕字，形首為〔阝〕，形尾為〔丁〕。〔拾〕字，形首為〔扌〕，形尾為〔口〕。

②上下型漢字：形首在字的上方或左上角，形尾在字的下方或右下角。如〔古〕字，形首為〔十〕，形尾為〔口〕。〔花〕字，形首為〔艹〕，形尾為〔匕〕。

③包含型漢字：形首在字的外部或上方，形尾在字的内部或内下方。如〔困〕字，形首為〔囗〕，形尾為〔木〕。〔同〕字，形首為〔冂〕，形尾為〔口〕。〔凶〕字，形首為〔乂〕，形尾為〔凵〕。〔膺〕字，形首為〔丶〕，形尾為〔月〕。〔司〕字，形首為〔〕，形尾為〔口〕。〔趣〕字，形首為〔十〕，形尾為〔又〕。〔氖〕字，形首為〔丿〕，形尾為〔乃〕等。

④獨體型漢字：整個字就是形首，無形尾。如〔人、耳、目、日、月、山、木〕等皆為形首，無形尾。

③串筆型漢字：形首是縱贯上下的串筆，無形尾。如〔十、中、丰、串、聿〕的形首為〔十〕。〔事、求〕的形首為〔亅〕。〔夫〕的形首為〔人〕等，無形尾。

⑶中英的象形

漢字依字型取得形首字元和形尾字元以後，筆者發現這些字元的形狀，很像大寫的英文字母和標點符號。這種現象，我稱它為〔中英象形〕，簡稱〔中象英〕(見註1.)。

〔中英象形〕的示意圖如下圖1.：

上圖中，箭號的左邊是漢字的基本字元(獨體字或基本筆劃)，箭號的右左邊是英文字母或標點符號(淺藍部分)。由這種對應關係，就可確定漢字形首和形尾字元的中英象形碼，配合漢字的字型和字級(參見以下⑷)，就可以簡便合理的解决漢字的檢索問題。

⑷漢字的分級

漢字依其使用狀態，可以分為常用字、簡體字、繁體字、罕用字等四級，分别說明如下：

①常用字

漢字的常用字，指的是字形字義在簡繁體中完全相同的漢字。如〔你、我、他、的、了、是、否〕等字(*這比一般所指的常用字，意義要狹一些)，用符號〔C〕表示。

②簡體字

漢字的簡體字，指的是字形已经簡化且有相應的繁體字者。如〔国、团、为、运、动、长、尘、来〕等字(*這比一般所指的簡體字，意義要狹一些)，用符號〔J〕表示。

③繁體字

漢字的繁體字，指的是與簡體字相應的未簡化漢字。如〔國、團、為、運、動、長、塵、來〕等字(*這比一般所指的繁體字，意義要狹一些)，用符號〔F〕表示。

④罕用字

漢字的罕用字，指的是字形未曾簡化但卻十分罕用的漢字，這些字在一般小型的字典中都不易找到。如〔國、国、囯、囻、囶〕等五個字，意義完全相同，但後面三個是罕用字。又如〔荌、苝、稫、毐、昹〕等字，也都是罕用字，用符號〔H〕表示。

以上四種等級的漢字，並非經緯分明，而是有交錯的。如〔干〕字用作〔干涉〕是常用字(簡繁同形)，用作〔干燥〕是簡體字，繁體應作〔乾燥〕。而〔乾〕用作〔乾燥〕是繁體字，但用作〔乾坤〕卻是常用字。又如〔庵〕字，用作〔尼庵〕是常用字，通〔奄〕字便是罕用字了。

在以下漢字屬性的應用中，秉承以上原則。

⑸漢字屬性的應用

歸納漢字上述的屬性，字形部分，有形首、形尾、字型三項，都是用眼睛可以看出。字音部分，為求簡化，仿漢字簡拼，只用其第一個英文字母，稱為首音。字級部分，則與字義或使用頻度有關，列為殿後。

①首尾型音級(*創新部分)

綜合上述，漢字的屬性可依〔形首、形尾、字型、首音、字級〕等五個層次來表示，簡稱〔首、尾、型、音、級〕。這五個層次，每個層次都可以編碼，按碼排序，為漢字檢索的現代化，提供了可以具體實施的簡捷方法(舉例見以下第四節)。

②檢索無障礙

由於漢字的屬性〔首、尾、型、音、級〕五個層次中，前三個層次都是用眼睛可以看出，而且部位明確，不用數筆劃，彌補了傳統部首檢字法的缺點，即使不知漢字讀音，僅用〔首、尾、型〕三五個層次就能檢索，故又撥開了字音檢字法的盲點，兼合兩者之長，真正可以做到〔漢字檢索無障礙〕(舉例見以下第四節)。

第四節、打造檢索最快的漢字詞典

㈠Ｅ碼詞典

筆者根據中英象形原理，編制了Ｅ碼(註3.)漢字輸入法軟件和《Ｅ碼詞典》。後者的對話框畫面如下圖2所示：

⑴檢索頁面

上圖的左邊是檢索頁面，最上方為輸入欄，第二行為四種檢索方法，第三行以下為查到的結果，如有多項，可以上下滾動和點擊選擇。

②内容頁面

上圖的右邊是檢索到的内容，未檢索前則是提示，檢索後則將内容分1.查到的目標字、2.漢字解釋、3.漢字或英文舉例、4.漢英對照檢索欄四項，列舉查到的内容。

㈡用Ｅ碼檢索

⑴檢索單字

用Ｅ碼輸入單字，按漢字屬性〔首、尾、型、音、級〕五個層次，在輸入欄輸入要查單字的Ｅ碼。如要查〔花〕字，首為艹=H，尾為匕=L，型為上下=I，音為H，級為常用=C，在輸入欄輸入〔HLIHCd〕六碼，其中尾碼〔d〕指明要查單字，即可查到〔花〕字和它相關的内容。

⑵檢索詞組(首字相同)

用Ｅ碼輸入首字相同的詞組，按漢字屬性〔首、尾、型、音、級〕五個層次，在輸入欄輸入要查詞組的Ｅ碼，並在其後加一個提示碼〔P〕。如要查〔花〕字為首的詞組，首為艹=H，尾為匕=L，型為上下=I，音為H，級為常用=C，在輸入欄輸入〔HLIHCp〕六碼，其中尾碼〔p〕指明要查詞組，即可查到以〔花〕字為首的所有詞組，使用者可依需要點擊某條詞組。

如〔花〕字有幾個同碼字，則其詞組的提示碼依次為〔p、q、r、s、t〕等。

加提示尾码的用意，在使單字和詞組分離，不同首字的詞組分離。因單字的同碼字極少，所以查找速度極快，是目前舉世查字速度最快的中文詞典。

㈡用漢英檢索

除了首字相同的詞組，用《Ｅ碼詞典》還可查找尾字相同的詞組，和内容屬性相同的詞組，說明如下：

⑴檢索詞組(末字相同)

先選擇查詢方法用〔漢英〕然後在輸入欄〔輸入詞組的末字＋.〕。例如：要查XXX花，就在輸入欄輸入〔花.〕，查詢結果欄就顯示喇叭花、百合花等眾多XXX花的中英文名稱和解說。

⑵檢索詞組(類别相同)

先選擇查詢方法用〔漢英〕然後在輸入欄〔輸入詞組類別的簡拼＋.〕。詞組的類別只有二個字，它的簡拼也只有二個字母。例如：要查中國各省、市、區的名稱及簡介，就在輸入欄輸入省區二字的簡拼〔SQ.〕，查詢結果欄就顯示北京市、上海市、貴州省等全部省、直轄市及自治區的名稱和簡介。

⑶詞典的提示

本詞典詞組的類別共分一百多類，在典詞幫助文件中有簡明提示。或者選擇〔Ｅ碼〕然後在輸入欄〔Ｅ碼分類〕四字的簡拼〔EMFL〕，就能查到各分類的名稱和它的簡拼。

㈢其他檢索方法

本詞典亦可用一般的檢索方法查詢，以便與上述的方法做簡單比較。

⑴用漢字檢索

使用者選擇〔漢字〕然後在輸入欄輸入要查的漢字，例如輸入〔花〕字，查詢結果欄就顯示〔花〕字為首的所有詞組，使用者可依需要點擊某條詞組。(使用本法，如輸入方法的效率低，查詢的速度相對就慢)。

⑵用拼音檢索

使用者選擇〔拼音〕然後在輸入欄輸入要查的漢字的拼音或注音，因為漢字不論是單字或詞組，同音的實在太多，本詞典特在單字的拼音後加尾部區別碼〔d〕，在詞組的拼音後加尾部區別碼〔p 〕。例如：輸入〔花〕字的拼音〔huad〕，查詢結果欄就顯示漢語拼音為〔hua〕的所有單字，而〔花〕字亦在其中，可點選〔花〕字，即得相應的内容。

例如：輸入〔花〕字的拼音〔huap〕，查詢結果欄就顯示漢語拼音為〔hua〕的所有詞組，而〔花〕字為首的詞組亦在其中，可點選相應的詞組，即得相應的内容。

利用本法查詢，不論是單字或詞組，因為同音的實在太多，尋找困難，所以速度最慢，效率最差。這也是筆者孜孜以求創新漢字檢索方法的最主要動機。

第五節、呼籲改良漢字排序，使漢字現代化

㈠利用漢字屬性碼排序

漢字的排序和漢字的檢索方法息息相關，因為此前没有良好的檢索方法，漢字的排序亦在部首和字音之間徘徊，使從事電腦文字研究工作者相當不便，而又莫可奈何。

利用第四段所介紹的漢字屬性〔首、尾、型、音、級〕五個層次作排序，可以使漢字的排序，兼顧並保留了部首筆劃和字音的優點，而且漢字單字的同碼字極少，是非常合理的排序方法。

㈡漢字屬性碼排序與部首排序比較

利用第四段所介紹的漢字屬性〔首、尾、型、音、級〕五個層次作排序，使漢字的排序比單用部首筆劃，字形更加整齊。因为部首筆劃只考慮部首，無暇顧及部首以外的部分。而〔首、尾、型、音、級〕五個層次，顧到了整個字形的變化。

㈢漢字屬性碼排序與拼音排序比較

利用第四段所介紹的漢字屬性〔首、尾、型、音、級〕五個層次作排序，使漢字的排序比單用字音的排序整齊得多。因为字音的排序，只考慮字音的順序，根本不管字形。而〔首、尾、型、音、級〕五個層次，顧到了整個字形和字音的變化。

註1. 中英象形

漢字字元〔中英象形〕的現象係筆者在1980年發現，1985年著《王氏中文字引》，由臺灣松崗電腦圖書公司出版，正式對外公佈，此時距筆者開始研究漢字的檢輸方法為時已15年。但在觀念推廣上這只是開始，此後一路走來，真是任重道遠。

註2. 字型的首尾

漢字的字型相當複雜，這也是漢字檢索和輸入困難的根本原因。筆者將漢字的字型分為〔左右、上下、包含、串筆、獨體〕等五種類型，并分别賦以中英象形碼、字型碼、字級碼，以此為漢字檢索的要素，解决了漢字長久以來檢索的困難，並合理的解決了漢字爭論不休的排序问题。

註3. Ｅ碼漢字輸入法

筆者於發現〔中英象形〕現象後，立即創研簡繁體漢字輸入方法。1985年出版《王氏中文字引》，其後随電腦系統的進展，又不斷優化方法，發表著作多种，並於1990年獲得中國國家發明專利〔專利號碼ZL90102289.1〕。2011年獲中國新聞文化促進會頒發〔共和國重大前沿理論創新突出成就奬〕(對Ｅ碼有興趣者歡迎參閱km2000.com.cn網站)。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。