打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
創新漢字的檢索和排序方法
(第一屆國際漢字書同文學術研討會論文)
報告人:王堯世(台北、E碼發明者)
提要:漢字很美,但更有靈性。它是世界上少有的以形表意的文字。由這個特性和配合電腦賜給我們的條件,筆者導出了“中英象形”(註1.)的創新觀念,并以此解決了困擾中國人兩千多年的漢字檢索和排序問題。
第一節、漢字傳統的檢索方法及其優缺點
㈠漢字的部首檢索法
漢字傳統的檢索方法,是部首筆劃檢字法。該法由許慎(约58年—约147年)在其著作《說文解字》中所首創,後經明朝梅膺祚所著《字彙》一書(书成于公元1615年)中加以改良,至今已沿用了將近400年,成为這一時期漢字最主要的檢索方法。
⑴優點
該法主要的貢獻是使漢字有了具體可行的檢索方法,且長時間被廣泛大眾所使用,其在文化上厥功甚偉。
⑵缺點
該法的主要缺點在於:①部首數量太多,使用不便。②部首在字中的位置不明確,容易造成誤區。③查字數筆劃太費時間,手續太繁瑣,速度太慢。
第二節、漢字現行的檢索方法及其優缺點
㈠漢字的拼音檢索法
由於部首筆劃檢字法有以上諸多缺點,于是有人想到另一種古老的檢字方法,那就是利用漢字的讀音,較著名的如《广韵》(1008年)。不過現代有了注音符號和漢語拼音,改進了切音的方法,自是更為精準。
⑴優點
由於現代國民基礎教育强化了漢字的讀音教學,使時下的年青人一般都有相當的注音或拼音基礎,這就是时下一般中文字典和詞典多使用字音檢索的根本原因,因为使用者不必再學别的檢索方法。
⑵缺點
可惜這種搭便車的檢索方法,不合漢字〔一字多音又多字同音〕的天性。該法的主要缺點在於:①同音字太多,查字還是不快。②不知讀音的字或詞不能查,成为字典或詞典中一大盲點。③用讀音排序的字典或詞典,攪亂了筆劃部首在識字方面的優點,破好的,立差的,實為憾事。
正因為字音的檢索方法有以上嚴重的缺點,所以凡字音檢索方法的字典或詞典,又都附加了部首筆劃檢索法作為備用,以補不足。這種雙軌現象,正充分說明了,漢字的檢索問題,尚没有合理解決。
第三節、漢字檢索方法的創新
㈠漢字的特性
創新的方法,必須符合漢字的特性,才能發揮漢字的優勢,這是基本原則。漢字有以下三種特性:
⑴以形表意
漢字是世界上少有的以形表意的文字,這一點很重要。因為以形表意,所以用眼睛看為主,用耳朵聽只是其次。關於漢字的檢索方法,亦應本此。
⑵方塊特性
漢字又是世界上少有的方塊文字,與線條形的拼音文字完全不同。拼音文字的字母從左向右按序排列,拆解毫無困難。方塊文字是平面的結構,拆解十分困難。這是漢字檢索和輸入現代化根本困難的所在,亦是本文創新的重點。
⑶多音特性
漢字也是世界上少有的多音字,同一個字有許多不同的讀音。許多不同的字,又有相同的讀音。這說明:漢字不宜單獨用字音的方法檢索(事實已見本文第二節)。
㈡漢字的屬性
⑴字型的屬性
由於漢字是方塊字,它的結構,可以横向左右分、縱向上下分、包含内外分、以及拆分困難的獨體字和串筆字。舉例說明如下:
①左右型漢字:如〔他們、拍球、說話〕等為二分字。〔做、湖、謝〕等為三分字。無論二分或三分,都歸併为左右型。左右型漢字最多,約佔總字數的70.2%。檢索中用字型符號〔U〕。
②上下型漢字:如〔古、呆、杏、李〕等為二分字。〔三、宴、草〕等為三分字。〔喜、量、暮〕等為四分字。〔熹、壽、寰〕等為多分字。無論二分至多分,都歸併為上下型。上下型漢字次多,約佔總字數的22.1%。檢索中用字型符號〔I〕。
③包含型漢字:如〔國、因、困〕等为四面全包。〔同、周、問、凶〕等為三面包。〔司、后、遠、趙〕等為二面包。無論全包、三面包或二面包,都歸併为包含型。包含型漢字第三多,約佔總字數的7.2%。檢索中用字型符號〔V〕。
④獨體型漢字:指不宜拆分的基本漢字,如〔人、耳、目、日、月、山、木〕等皆為獨體字。獨體字不多,約佔總字數的0.3%。獨體字因不拆分,故不用字型符號。
⑤串筆型漢字:指漢字上下有直筆貫穿而不易拆分的漢字,如〔十、中、丰、串、聿、求、事、〕等皆為串筆字。串筆字為本法所創設,字數最少,僅佔總字數的0.1%。串筆字因不拆分,也不用字型符號。
⑵字型的首尾
漢字依結構方式,分左右型、上下型、包含型、獨體字和串筆字後,即可依視覺直觀和書寫習慣,取得其形首、形尾二個字元(註2.)。舉例說明如下:
①左右型漢字:形首在字的左邊或左上角,形尾在字的右邊或右下角。如〔阿〕字,形首為〔阝〕,形尾為〔丁〕。〔拾〕字,形首為〔扌〕,形尾為〔口〕。
②上下型漢字:形首在字的上方或左上角,形尾在字的下方或右下角。如〔古〕字,形首為〔十〕,形尾為〔口〕。〔花〕字,形首為〔艹〕,形尾為〔匕〕。
③包含型漢字:形首在字的外部或上方,形尾在字的内部或内下方。如〔困〕字,形首為〔囗〕,形尾為〔木〕。〔同〕字,形首為〔冂〕,形尾為〔口〕。〔凶〕字,形首為〔乂〕,形尾為〔凵〕。〔膺〕字,形首為〔丶〕,形尾為〔月〕。〔司〕字,形首為〔〕,形尾為〔口〕。〔趣〕字,形首為〔十〕,形尾為〔又〕。〔氖〕字,形首為〔丿〕,形尾為〔乃〕等。
④獨體型漢字:整個字就是形首,無形尾。如〔人、耳、目、日、月、山、木〕等皆為形首,無形尾。
③串筆型漢字:形首是縱贯上下的串筆,無形尾。如〔十、中、丰、串、聿〕的形首為〔十〕。〔事、求〕的形首為〔亅〕。〔夫〕的形首為〔人〕等,無形尾。
⑶中英的象形
漢字依字型取得形首字元和形尾字元以後,筆者發現這些字元的形狀,很像大寫的英文字母和標點符號。這種現象,我稱它為〔中英象形〕,簡稱〔中象英〕(見註1.)。
〔中英象形〕的示意圖如下圖1.:
上圖中,箭號的左邊是漢字的基本字元(獨體字或基本筆劃),箭號的右左邊是英文字母或標點符號(淺藍部分)。由這種對應關係,就可確定漢字形首和形尾字元的中英象形碼,配合漢字的字型和字級(參見以下⑷),就可以簡便合理的解决漢字的檢索問題。
⑷漢字的分級
漢字依其使用狀態,可以分為常用字、簡體字、繁體字、罕用字等四級,分别說明如下:
①常用字
漢字的常用字,指的是字形字義在簡繁體中完全相同的漢字。如〔你、我、他、的、了、是、否〕等字(*這比一般所指的常用字,意義要狹一些),用符號〔C〕表示。
②簡體字
漢字的簡體字,指的是字形已经簡化且有相應的繁體字者。如〔国、团、为、运、动、长、尘、来〕等字(*這比一般所指的簡體字,意義要狹一些),用符號〔J〕表示。
③繁體字
漢字的繁體字,指的是與簡體字相應的未簡化漢字。如〔國、團、為、運、動、長、塵、來〕等字(*這比一般所指的繁體字,意義要狹一些),用符號〔F〕表示。
④罕用字
漢字的罕用字,指的是字形未曾簡化但卻十分罕用的漢字,這些字在一般小型的字典中都不易找到。如〔國、国、囯、囻、囶〕等五個字,意義完全相同,但後面三個是罕用字。又如〔荌、苝、稫、毐、昹〕等字,也都是罕用字,用符號〔H〕表示。
以上四種等級的漢字,並非經緯分明,而是有交錯的。如〔干〕字用作〔干涉〕是常用字(簡繁同形),用作〔干燥〕是簡體字,繁體應作〔乾燥〕。而〔乾〕用作〔乾燥〕是繁體字,但用作〔乾坤〕卻是常用字。又如〔庵〕字,用作〔尼庵〕是常用字,通〔奄〕字便是罕用字了。
在以下漢字屬性的應用中,秉承以上原則。
⑸漢字屬性的應用
歸納漢字上述的屬性,字形部分,有形首、形尾、字型三項,都是用眼睛可以看出。字音部分,為求簡化,仿漢字簡拼,只用其第一個英文字母,稱為首音。字級部分,則與字義或使用頻度有關,列為殿後。
①首尾型音級(*創新部分)
綜合上述,漢字的屬性可依〔形首、形尾、字型、首音、字級〕等五個層次來表示,簡稱〔首、尾、型、音、級〕。這五個層次,每個層次都可以編碼,按碼排序,為漢字檢索的現代化,提供了可以具體實施的簡捷方法(舉例見以下第四節)。
②檢索無障礙
由於漢字的屬性〔首、尾、型、音、級〕五個層次中,前三個層次都是用眼睛可以看出,而且部位明確,不用數筆劃,彌補了傳統部首檢字法的缺點,即使不知漢字讀音,僅用〔首、尾、型〕三五個層次就能檢索,故又撥開了字音檢字法的盲點,兼合兩者之長,真正可以做到〔漢字檢索無障礙〕(舉例見以下第四節)。
第四節、打造檢索最快的漢字詞典
㈠E碼詞典
筆者根據中英象形原理,編制了E碼(註3.)漢字輸入法軟件和《E碼詞典》。後者的對話框畫面如下圖2所示:
⑴檢索頁面
上圖的左邊是檢索頁面,最上方為輸入欄,第二行為四種檢索方法,第三行以下為查到的結果,如有多項,可以上下滾動和點擊選擇。
②内容頁面
上圖的右邊是檢索到的内容,未檢索前則是提示,檢索後則將内容分1.查到的目標字、2.漢字解釋、3.漢字或英文舉例、4.漢英對照檢索欄四項,列舉查到的内容。
㈡用E碼檢索
⑴檢索單字
用E碼輸入單字,按漢字屬性〔首、尾、型、音、級〕五個層次,在輸入欄輸入要查單字的E碼。如要查〔花〕字,首為艹=H,尾為匕=L,型為上下=I,音為H,級為常用=C,在輸入欄輸入〔HLIHCd〕六碼,其中尾碼〔d〕指明要查單字,即可查到〔花〕字和它相關的内容。
⑵檢索詞組(首字相同)
用E碼輸入首字相同的詞組,按漢字屬性〔首、尾、型、音、級〕五個層次,在輸入欄輸入要查詞組的E碼,並在其後加一個提示碼〔P〕。如要查〔花〕字為首的詞組,首為艹=H,尾為匕=L,型為上下=I,音為H,級為常用=C,在輸入欄輸入〔HLIHCp〕六碼,其中尾碼〔p〕指明要查詞組,即可查到以〔花〕字為首的所有詞組,使用者可依需要點擊某條詞組。
如〔花〕字有幾個同碼字,則其詞組的提示碼依次為〔p、q、r、s、t〕等。
加提示尾码的用意,在使單字和詞組分離,不同首字的詞組分離。因單字的同碼字極少,所以查找速度極快,是目前舉世查字速度最快的中文詞典。
㈡用漢英檢索
除了首字相同的詞組,用《E碼詞典》還可查找尾字相同的詞組,和内容屬性相同的詞組,說明如下:
⑴檢索詞組(末字相同)
先選擇查詢方法用〔漢英〕然後在輸入欄〔輸入詞組的末字+.〕。例如:要查XXX花,就在輸入欄輸入〔花.〕,查詢結果欄就顯示喇叭花、百合花等眾多XXX花的中英文名稱和解說。
⑵檢索詞組(類别相同)
先選擇查詢方法用〔漢英〕然後在輸入欄〔輸入詞組類別的簡拼+.〕。詞組的類別只有二個字,它的簡拼也只有二個字母。例如:要查中國各省、市、區的名稱及簡介,就在輸入欄輸入省區二字的簡拼〔SQ.〕,查詢結果欄就顯示北京市、上海市、貴州省等全部省、直轄市及自治區的名稱和簡介。
⑶詞典的提示
本詞典詞組的類別共分一百多類,在典詞幫助文件中有簡明提示。或者選擇〔E碼〕然後在輸入欄〔E碼分類〕四字的簡拼〔EMFL〕,就能查到各分類的名稱和它的簡拼。
㈢其他檢索方法
本詞典亦可用一般的檢索方法查詢,以便與上述的方法做簡單比較。
⑴用漢字檢索
使用者選擇〔漢字〕然後在輸入欄輸入要查的漢字,例如輸入〔花〕字,查詢結果欄就顯示〔花〕字為首的所有詞組,使用者可依需要點擊某條詞組。(使用本法,如輸入方法的效率低,查詢的速度相對就慢)。
⑵用拼音檢索
使用者選擇〔拼音〕然後在輸入欄輸入要查的漢字的拼音或注音,因為漢字不論是單字或詞組,同音的實在太多,本詞典特在單字的拼音後加尾部區別碼〔d〕,在詞組的拼音後加尾部區別碼〔p  〕。例如:輸入〔花〕字的拼音〔huad〕,查詢結果欄就顯示漢語拼音為〔hua〕的所有單字,而〔花〕字亦在其中,可點選〔花〕字,即得相應的内容。
例如:輸入〔花〕字的拼音〔huap〕,查詢結果欄就顯示漢語拼音為〔hua〕的所有詞組,而〔花〕字為首的詞組亦在其中,可點選相應的詞組,即得相應的内容。
利用本法查詢,不論是單字或詞組,因為同音的實在太多,尋找困難,所以速度最慢,效率最差。這也是筆者孜孜以求創新漢字檢索方法的最主要動機。
第五節、呼籲改良漢字排序,使漢字現代化
㈠利用漢字屬性碼排序
漢字的排序和漢字的檢索方法息息相關,因為此前没有良好的檢索方法,漢字的排序亦在部首和字音之間徘徊,使從事電腦文字研究工作者相當不便,而又莫可奈何。
利用第四段所介紹的漢字屬性〔首、尾、型、音、級〕五個層次作排序,可以使漢字的排序,兼顧並保留了部首筆劃和字音的優點,而且漢字單字的同碼字極少,是非常合理的排序方法。
㈡漢字屬性碼排序與部首排序比較
利用第四段所介紹的漢字屬性〔首、尾、型、音、級〕五個層次作排序,使漢字的排序比單用部首筆劃,字形更加整齊。因为部首筆劃只考慮部首,無暇顧及部首以外的部分。而〔首、尾、型、音、級〕五個層次,顧到了整個字形的變化。
㈢漢字屬性碼排序與拼音排序比較
利用第四段所介紹的漢字屬性〔首、尾、型、音、級〕五個層次作排序,使漢字的排序比單用字音的排序整齊得多。因为字音的排序,只考慮字音的順序,根本不管字形。而〔首、尾、型、音、級〕五個層次,顧到了整個字形和字音的變化。
註1. 中英象形
漢字字元〔中英象形〕的現象係筆者在1980年發現,1985年著《王氏中文字引》,由臺灣松崗電腦圖書公司出版,正式對外公佈,此時距筆者開始研究漢字的檢輸方法為時已15年。但在觀念推廣上這只是開始,此後一路走來,真是任重道遠。
註2. 字型的首尾
漢字的字型相當複雜,這也是漢字檢索和輸入困難的根本原因。筆者將漢字的字型分為〔左右、上下、包含、串筆、獨體〕等五種類型,并分别賦以中英象形碼、字型碼、字級碼,以此為漢字檢索的要素,解决了漢字長久以來檢索的困難,並合理的解決了漢字爭論不休的排序问题。
註3. E碼漢字輸入法
筆者於發現〔中英象形〕現象後,立即創研簡繁體漢字輸入方法。1985年出版《王氏中文字引》,其後随電腦系統的進展,又不斷優化方法,發表著作多种,並於1990年獲得中國國家發明專利〔專利號碼ZL90102289.1〕。2011年獲中國新聞文化促進會頒發〔共和國重大前沿理論創新突出成就奬〕(對E碼有興趣者歡迎參閱km2000.com.cn網站)。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
注音符號的由來
【灯谜教材】第六讲 字谜的创作(下)
“先识字”和“先学拼音”的孩子,上小学后差距很大,有3点不同
書訊 | 金琪然:《段注說文攷校羣書類纂》(附孙玉文教授序)
六字真言《生命能文本》
会写不会读!这116个字字音错误率太高,试一下你会几个?!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服