打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
中英文的比较


  英文是世界上最普及通用的拼音文字,当前的计算机都是以它作为基础语言的。中文(汉字)是世界上使用人数最多的象形文字,它最古老而独特,一度曾被认为不适于信息处理而必须淘汰,后来却发现它更为有效,将是未来应用最广的。我们研究比较这两种文字,目的是:进一步明确汉字的优缺点以便扬长避短,让汉字也能作为计算机的基础语言,创造出真正的汉字电脑。本文将从两方面进行比较研究。性能上的比较会使我们坚信汉字的优越性,结构上的比较将帮助我们找到把汉字植根于电脑的方法。

 

甲、性能上的比较:

 

  壹、汉字的短处

 

  一般都认为,英文只要学会26个字母及相应的音素,会拼音,就学会了读写,不是文盲了,所以学文化很容易,花一个月的工夫就够了。中文则不那么简单,至少要学会几千个方块汉字。而每个字形状复杂,没有确切的读音信息,且一字多音,一音多字,即所谓汉字有“三多五难”(字数多,笔画多,读音多;难认、难读、难写、难记、难用)。中国孩子要花6~12年的时间学汉字,太落后了,以至连鲁迅都说“汉字不灭,中国必亡”。于是从二十世纪三十年代起开始推广拼音新文字,据试验,也只要个把月工夫,就可以写信了。

  事实当然不完全象上面说的。中国儿童在中小学里并不是只学汉字,而拼音文字也不是只要一个月工夫就可学好的。学几天拼音,能拼出几句中国话,别人看了,百分之七八十都能猜出大意,这十可能的。但说要能基本掌握一种文字,这是不可能的。只要想一想,方言重的人学普通话,中国人学英文有多么困难,有些人花几年几十年时间都学不会,就可以明白了。说英语的人,学英文也同样不容易。英语专业自学考试课本《综合英语I(1)》第4课是美国著名演员悉尼谈他学英文的故事。他花了半年工夫跟人学读英文报纸,以后还经常练习,才学会念台词。

  分析起来,汉字是由30种左右的笔画(远比英文字母26*2=52种少)组成的,先组成200~600种字根(字元、偏旁、部首,相当于英文的字干、前缀、后缀),再由它们组成汉字。汉字对应英文字,汉字字典收字最多的是《中华字海》,达85000个,而学生用英文小字典中的英文字都在2万以上。《新英汉字典》收字已达80000,英文字总数应远远超过汉字数目。

  汉字唯一的缺点是,缺乏读音信息,所以有时候会懂一个字的意义,而读不出或读不准发音。英文的字母或字母组与音素也不是一一对应,在诸多拼音文字中,发音规则复杂,也会读错,不过比汉字要好得多。汉字只有近一半有声旁(80%有偏旁,其中一半以上是声旁)。汉语只有417个音节(1369个不同的音调节),84%的音节有声旁,但只有2成声旁是唯一的,8成有2个以上不同形的声旁,甚至有10~29个不同的声旁。因为汉语音节总数只有400来个,每个平均有3个声旁,只要认识1000来个声旁,如果准许“秀才认字读半边”,则所有字就都可以读得出了。但问题是有一半多汉字的偏旁不是声旁,硬要“读半边”就读错了。非关键字读错了不影响交流,多数人长期错读,甚至会改变该字的读音。所以我提议让“读半边”合法化,同时尽量减少多音字,降低错读率,提高汉字的语音信息量。以前的文字改革只在简化字形上下工夫,没有在读音上动手术。我觉得在这方面也应该有文章可做,准备在另一个地方讨论。

 

 贰、汉字的优势

 

  除了上面这个短处外,其他都是汉字占优势。在汉字输入瓶颈解决之前,认为汉字不适于信息处理,而现在看得出来的以下优点,主要的是第一条、第三条,反而是在信息处理中更能显出其优势:

  ①.汉字含的信息量大,效率高。计算信息量的大小有一个数学函数:熵H=-ΣPilog2Pi,这里Pi是事件集合中事件i的出现概率。把汉字和英文字母作为各自的事件集合,其信息量分别为9.71和4.03。虽然汉字高出英文一倍以上,但将几千汉字和几十个字母作比较是不恰当的。对词的概率分布进行计算。汉字词的信息量为11.46,英文词(字)则为10.0,不过汉字词的划分还是有人为的音素。最形象的比较是:在联合国的同样内容的文件中,中文的总比英文的薄得多。随便拿一本中英对照的书翻一翻,都是英文部分比中文部分厚得多。我进行过统计,一般每页的行数,中、英文是一样的;每行的汉字数是英文字母数的一半;在电脑存储时,一个汉字正好要占两个字母的空间。统计结果是,英文的页数是中文的1.4倍。在电脑中,英文文件要比同内容的中文文件大1.4倍。这样,中文的存储效率高,传输和处理的速度也就快。

  ②.阅读中文比英文快,用中文进行思考快。按上条可知,用同等大小的字体排印的印刷品,英文的行数比中文行数多1.4倍。另外,英文是拼音文字,必须把线性排列的字母在脑子里拼成声音才能理解。而汉字是整体的:阅读时多不必把它化成声音,常常掠一下字形就了解其含义,读得快时被形容成一目十行。所以阅读同样内容的文件,速度应快1.4倍以上,用中文进行思考也会快这么多(有文章说达1.6倍)。赵元任先生早就做过试验,用英文背九九表(乘法口诀)要花45秒,而用中文只要30秒,快一倍半。

  由于阅读中文快,用中文思考快,想必电脑识别、理解中文也应该快。单从中文存储、传输效率高这点看就应该如此,虽然尚未见到试验报告。深入分析中文的这种高效率的根源,是在于汉字的双字节代码。因为汉字不能拆分为字母来显示,只能为每个汉字置一个显示字模和一个两字节的代码(内码)。如果也为每个英文字置一个代码,常用的(大学生用字典)英文字大约有1~2万个,所以也可以用两个字节的代码。英文字平均长度是4.64个字母,用双字节代码来存储,就可压缩一倍以上,这样一来,英文的存储传输效率反过来成为中文的1.4倍。但是中文的印刷页比英文少,阅读快等客观属性,是不能用电脑存储机制的改变来改变的。

③.英文的缩略语比起中文的简称来,难记,易搞混。随着社会的发展,概念,因而相应的名词也增多,专有名词也越来越长,使用起来太笨拙。英文中就用组成该专有名词的英文字首字母形成的缩略词来代替,中文中则采用词的首字形成简称。因为汉字有几千,简称不易重复,词短,音节少,容易推出其全称。英文首字母只有26种,所以缩略词易重复,词虽短,个别情况下读音却不一定短,由缩略词难以推出正确的全称,容易搞错。我随机抽查了一本《英汉缩略语词典》当中的532个词条,无重复释义的只占67%,即三分之一缩略词有2个以上的释义(全称),10%以上的缩略词有5个以上的释义,只能在特定环境、特定上下文中才有确定的含义。奇怪的是,现在中文报刊,特别是计算机报刊,也喜欢夹用英文缩略词,一篇文章中这种缩略词太多,何况有许多缩略词是新诞生的,没有词典可查,也猜不透它的含义,全篇文章就看不懂了。为什么不使用中文简称呢? 

④.汉字能无限的发展,学汉字能提高智商。中文的简称与多字词无形式上的差别,直接变成普通词。英文缩略词则难以变为普通词汇,因为不是任何字母组合都可以成为有一定读音的英文字,而一定长度内的英文字数是有限的。电脑源程序中常出现很长的夹杂着大写的英文字,很笨重,只能在这特定情况下用。缩略词的混乱上面已说过,这一切表明,英文发展进程中已出现了困难。中文就没有类似情况,创造新词和新字的空间还很大。交谈时,新名字要求用短音节,万一有歧义,可补充说明,而写到纸面上,则总可以用不同的词或字。人类的感官接受信息最多的是视觉,其次是听觉。听觉可区别声波的线性序列,视觉能鉴别形状的平面分布。文字的作用是把听觉信号转变为视觉信号,本应发展提高。但拼音文字维持信号的线性次序,是限制了自己的提高。据研究,幼儿早学汉字,可以提高智商(参见《汉字优势与幼儿教育》)。我们的左脑管语言和逻辑思维,使用字母线性排列的拼音文字时,只使用左脑。使用中文就要同时使用管形象思维的右脑,因为左右脑一起用,所以效率高,智商也得到发展。

⑤.汉字和中文的艺术表现力强。只有汉字有发达的书法艺术,拼音文字几乎没有。中文的诗词歌赋等文学艺术形式,英文中没有哪种形式可以比得上,有些形式,例如对联、歇后语、字谜等,英文中甚至没有类似的。有人认为,中国之所以没有得到诺贝尔文学奖,不是没有高水平得作品,而是因为难以把它们翻译成英文。英文译本不能传达中文种包含的绚丽色彩,她所有的独特韵味都被抹杀了,这不无道理。

 

  乙、结构的比较

 

  文字是记录语言的。记录下来的语言就成为文章。由它的最小的单位组织成的文章的过程中,有许多不同的层次。1985年我首次按这种结构层次,对中英文进行了比较,得出以下的对比表:

 

 

  文种   第0级(元素)              第1级     第2级     第3

 

西文(拼音) 音素和形素(字母)一一对应,数目少   音节,无显界  词(字),有显界  句

       30~60左右,有显界

中文(拼形) 形素(字元)和声音非一一对应,数目多  汉字,有显界  词(2字以上者)  句

       约100~600个,无显界                 无显界

 

  这里所说的有无显界,是指能否明显而自然的分开。汉字的字元以及多字词的划分会因人而异,英文的音节的划分也有类似情况,故定为无显界。这张表中,划在同一级中的两种文字,都是有显界对无显界,现在看来是很不对的。现改为:

 

文种 第0级有显界       第1级无显界    第2级有显界    第3级无显界  第4级有显界

 

英文 字母共52种,熵=4.03  字干、前缀、后缀  英文字,熵=10.0    词组      句

 

中文 笔画约30种,熵=3.43  字根、偏旁、部首  汉字,熵=9.7     多字词      句

 

  这张表的对应关系是很自然很明显的。只有汉字的笔画,过去研究得较少。对于我们中国人,笔画的划分是很清楚而一定的。不过笔画的分类归属很不统一。简单的几乎只划分为5种:横竖点撇捺,并已用在汉字字典的检索和电脑汉字笔画码输入法中。实际上汉字笔画有30多种。表中所列的汉字笔画的熵=3.43,是我把笔画分为25种时统计计算的。为了使笔画数接近英文字母数,我把一些笔画归并了,这使信息量降低了。这样做不一定正确。关于笔画的研究,我准备在另一篇文章中讨论。另外,关于发音,英文字是多音节的。汉字是单音节的,关于汉字的发音信息,亦准备另写一篇文章讨论。

  现在按这张对比表,讨论中英文的不同之处。英文的基本元素是字母,中文的基本元素是笔画,笔画远比字母简单。字母组成英文字时,字母是线形排列的。而笔画组成汉字时,笔画是在平面的两个方向上按一定规则排列。利用空间的不同排列,简单的笔画组成了含信息量大,易于快速阅读和准确辩识的汉字。这是汉字优势所在之处。我们要研究汉字直接植根于电脑的方法,要研制功能更强的汉字电脑,就该从这里着手。研究汉字的笔画,总结笔画形成平面汉字的规律,使笔画直接组成汉字,不要庞大的字模字库。

  按上一节第②点后面的分析,完全排除字库加编码的方法,也是不明智的。汉字的平均笔画数为7.4,远比英文字的平均长度4.64长。如果完全用笔画序列来存储汉字,则在存储和传输效率上,将会比英文慢7.4/4.64=1.6倍。而且用笔画码逐码输入,其速度也将会变得不能容忍。所以应该有一个常用字库,不过其显示字模是由笔画组成的,所以占内存很小。原来开发的各种编码输入法仍然有用,只是常用字库可以只有一级字库那么大,各种输入法更可以简化,降低重码率。至于对使用频率很小的非常字,则用笔画输入,并直接以笔画码或字元码存储。这样双管齐下,汉字就能保持高效率和高活力,能适应一切情况和未来的发展。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
汉语有什么缺陷?
有这招就够了!轻松3步做出大气潦草的中文字体
对今后的电视转播中尽量屏蔽英文缩略词的看法--------不是每个人都懂NBA 那又有多少人懂CCTV呢?
为什么世界大多数国家的语言都是用有限的字母重复使用拼出单词,而中文独树一帜?
中文是世界上最适合电脑应用的文种(代序) - 语林采英 - 三槐居语文网 - Powere...
中文字(Chinese)是历史悠久包含信息量最多的二维象形文字
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服