20世纪50年代以前,世界各国词典对多义词义项的划分都经历了一个从无到有、从释义不科学到释义科学的过程。然而,自20世纪五六十年代世界语言学进入语料库时代后,辞书编纂便发生了革命性的变化,也即由过去通过做卡片靠语感确定常用词义项的方法转变到现在通过建立大规模的语料库依靠定量分析的方法研究常用词义项,因此新时期(语料库时期)词典编纂者的主要任务就是用语料库技术的方法研究常用词义项的分布情况,借以达到词典不再漏收常用词义项的目的,最终进一步完善常用词的释义体系。目前英美等辞书强国已经完成了用语料库技术研究英语常用词义项分布情况的工作,而包括中国在内的等为数众多的国家中的辞书还没有开始这项工作,因此,就中国而言,这是一项亟待展开的工作。下文是我们对开展这项工作的一些具体性建议。
(一)语料库技术研究常用词义项分布的可能性
国外:从20世纪80年代开始,语料库技术就已经广泛应用于英语词典编纂与研究中了。目前,占据英语辞书主要市场的牛津、韦氏、朗文与麦克米伦等英语词典,都是在语料库的基础上编成的。英语词典编纂者非常重视用语料库技术发现英语多义词的新义项(为了表述方便,本文以100核心词在汉英中型语文性词典中的平均义项为例做说明),我们的统计显示《牛津高阶英语词典》1至8版中100核心词的平均义项分别是7.55个、7.91个、7.03个、8.25个、8.47个、10.2个、10.47、10.61。由此,我们可以得出以下结论:《牛津高阶英语词典》1至3版分别出版于1948、1963、1974年,这三版中100核心词的平均义项数目基本稳定,这说明此段时间《牛津》词典编纂者还没有利用语料库技术把丰富、补充常用词的义项作为重点修订对象;4至6版分别出版于1989、1995、2000年,这三版中100核心词的平均义项数目有较大的变化,说明《牛津》词典编纂者在这段时间内已经利用语料库技术把丰富、补充常用词的义项作为重点修订对象;6至8版分别出版于2000、2005、2012年,这三版100核心词的平均义项数目基本稳定下来,并且从第6版开始《牛津高阶英语词典》常用词的编纂体例也发生了很大变化,这说明《牛津》词典编纂者在2000年就已经完成了用语料库技术研究英语常用词义项分布情况的工作。在最新出版的英语类中型语文性词典中,100核心词的平均义项分别是:《牛津高阶英语词典》(第8版)10.61个,《牛津简明英语词典》(第10版)12.81个,《麦克米伦高阶英语词典》(第2版)11.68个,《韦氏高阶英语词典》(2009年版)11.43个,《郎文当代英语词典》(第4版)10.35个。
与传统凭借语感编纂的词典相比,建立在语料库技术基础上的英语类中型语文性词典在多义词义项的划分方面更加细化、义项的收录更加全面,在词典编纂史上实现了里程碑式的跨越发展。
国内:20世纪90年代以来,中国相继建设了一批汉语语料库,最有代表性的如北京大学中国语言学研究中心研制的“CCL现代汉语语料库”,截止2015年6月18日规模已达5.81亿字,可以说,目前我国的语料库已经初步具备了词典编纂所需要的规模。尽管如此,在当今中国,用语料库技术发现汉语常用词新义项的方法还没有引起汉语词典编纂者的足够重视。例如:我们的统计显示,《现代汉语词典》1至6版中100核心词的平均义项分别是4.85个、5.20个、5.18个、5.18个、5.20个、5.42个,这表明,《现代汉语词典》1至6版并没有把丰富、补充常用词的义项作为重点修订对象,也就是说《现代汉语词典》第6版对100核心词义项的划分还和《现词汉语词典》第1版基本一致。与《现代汉语词典》同类的其他汉语类词典,如《现代汉语规范词典》(第2版)100核心词的平均义项是5.68个,《现代汉语学习词典》(2010年版)是5.9个,《新华词典》(最新修订版)是4.33个。这说明,汉语类中型语文性词典中100核心词乃至更多常用词义项的划分并没有建立在大型语料库的基础上进行成规模的系统修订,从而导致汉语类中型语文性词典义项的划分比较粗疏,存在义项漏收的情况。
总之,目前我国汉语类词典的编纂者乃至研究现代汉语词汇的学者还没有大规模地运用语料库技术对汉语常用词的义项进行丰富与补充,汉语类词典中常用词义项的编纂水准至今仍处在20世纪五六十年代靠语感编纂的水准。因此,相对于以往辞书中多义词靠语感编纂的情况来讲,充分利用语料库资源和计算机强大的计算功能来统计并分析每个常用词的义项在现代汉语中的分布情况,是一座非常诱人的学术富矿,有着巨大的挖掘潜力。
(二)语料库技术研究常用词义项分布的优点
1.用语料库技术研究常用词义项分布的最大贡献就在于把语料库技术也即把比人工阅读提高上百亿倍速度的搜集语料的方法引进到词汇学、词典学研究中来,这在中国词典学史、词汇学史乃至语言学史上具有里程碑式的、划时代的方法论意义。
以“黑”为例:用语料库检索的方法可以在16毫秒的时间内得出“黑”在北京大学CCL现代汉语语料库中有130831条。假设用人工阅读的方法查找1条含有“黑”字的语句需要用1个小时(实际上有时候不只1个小时),那么要找130831条“黑”字语料则要用130831小时。经过计算可以知道,查找同样多的语料,用语料库技术的方法约是人工阅读的290多亿倍,简直是神速。
2.语料海量。已有汉语类中型语文性词典的释义基本依靠语感通过做卡片的方式编纂,每个词占有的语料非常有限,而用语料库技术的方法对大多数常用词义项的考察都是在下载3万条语料共计160万字的基础上进行的①。与语音、语法相比,语义研究的最大困难在于主观性太强,常用词义项的划分也是如此,常常存在仁者见仁智者见智的情况,所以最好安排两人同时进行标注,结果一致最好,如果不一致,要找原因或再安排其他人进行标注直到一致,这就在一定程度上增加了义项划分的客观性。
新理论、新方法是推动一门学科进步的两大引擎,正因为用语料库技术研究常用词义项分布具有划时代的方法论意义,所以把语料库技术和词典编纂结合起来成规模地、系统地研究现代汉语常用词的义项分布规律问题,是一项亟待展开的、需要成千上万人参与的重大基础应用研究项目,它是一项非常宏大的工程。
(三)语料库技术研究常用词义项分布的思路
古今中外辞书的差距主要体现在常用词的释义方面,具体表现为:常用词义项的精细度、常用词义项的释义用语、常用词义项的排列等。虽然目前很多汉语类词典冠以语料库名义编纂,但实际上并没有对已有的辞书释义体系进行根本革新,所谓的更新仅仅是一些细枝末节的更新,如果要进行根本的革新就必须把常用词义项的研究建立在语料库分析基础之上。用语料库技术研究汉语常用词义项分布的具体思路是:
首先,组建学术团队。用语料库技术研究现代汉语常用词义项分布是一项前无古人后有来者、惠及当代泽披后世的重大基础应用研究项目,绝非两三人或十几人就能完成的项目,它需要成百上千甚至成千上万的人参与才能得以顺利完成。因此,完成这样的项目就需要组建学术团队,团队成员在从事该项目之前除了要掌握本课题需要的语料库技术外,还要有辨义能力,这就要求团队负责人事先通读与有关词典学、词汇学等相关的语言学论著,在了解词典释义原则的基础上,理清词义历时演变与共时分布之间的关系、词典中义项划分与义项排列之间的关系、词的意义和词的用法之间的关系等等,然后以集体授课的方式教给团队成员与本项目有关的上述词汇学、词典学知识。
其次,确定研究对象。根据有关字频、词频的统计材料,可以确定常用词的数目在3000个左右,这些词的特点是构词能力强、使用频率高。为了系统地研究多义词在现代汉语中的义项分布情况,应把选好的词系联为三大语义场——动作、名物、性状,然后每类义场再进一步细分。动作义场可细分为上肢动作义场、下肢动作义场、头部动作义场等,名物义场可细分为动物义场、植物义场、人体器官义场等,性状义场可细分为颜色义场、空间属性义场、品性义场等。这样一方面可以详细描写出每个常用词在现代汉语中的义项分布情况,另一方面也可以归纳出同类词在现代汉语中的义项分布规律。
第三,运用抽样统计法从北京大学CCL现代汉语语料库中下载所需要的语料,为每个常用词建立语料库并进行标注,要特别注意新义项的标注。重要的常用词都要分别安排两位课题组成员进行标注,如果标注的义项相同,就不再标注。如果不同则再进行标注,直到取得一致。
第四,发现新义项。以《现代汉语词典》常用词的释义作为基准,通过与《现代汉语学习词典》、《现代汉语规范词典》、《新华词典》等汉语类中型语文性词典中对应词的释义做比较,重点找出《现代汉语词典》中没有而其他词典中有的义项,通过标注语料看《现代汉语词典》中没有的义项是否存在于现代汉语中,如果语料库中有则建议《现代汉语词典》补充;以《现代汉语词典》常用词的释义作为基准,通过与《汉语大词典》、《汉语大字典》、《辞源》等汉语类历时性的大型词典中对应词的释义做比较,重点找出《现代汉语词典》中没有而历时性词典中有的义项,通过语料标注看历时上曾出现过而《现代汉语词典》中没有收录的义项是否存在于现代汉语中,如果语料库中有则建议《现代汉语词典》补充。在此基础上,鼓励团队成员依靠自己的辨义能力,发现汉语类词典中没有而语料库中有的义项,这样的义项为原创性发现。
第五,解释新义项成立的原因。运用词汇学、词典学、语义学等相关学科的理论,解释新义项成立的原因。我们在标注“牛”字语料的时候发现类似“牛吼”、“牛劲”、“牛眼”、“牛饮”中“牛”的意思是现有词典中的义项所不能概括的,例如:
①等送老婆走了,赶到河边,见逃黄水的人正和孙克贤在交钱交货。他牛吼一声:“孙克贤!”(严歌苓《第九个寡妇》)
②扛来啤酒送给他的队友,他的队友冲着他砰砰地打开啤酒,仰着脖子牛饮,有几个顽皮的骑手还朝我扬了扬酒瓶以示致意。(池莉《让梦穿越你的心》)
以汉语为母语的人自然会把“牛吼”、“牛饮”理解为(人)大声叫喊、(人)很能喝酒,但是对于汉语是非母语的外国人来说,他们因为没有中国文化背景,就很难做出这样的理解。如果我们告诉他们在上述词中“牛”有大的意思,则他们就容易理解得多,因此,我们可以考虑为“牛”立一个新义项“大”。这可以用张志毅先生的词义七因素新说来解释:“物象,是事物反映在意识中的群体表象……人们对物的反映可以从物象到物性,也可以舍弃物性,只选取物象。”[14] 129在汉族人的群体表象中,“牛”是一种躯体庞大的动物,语言是思维的直接现实,汉族人的这种群体意识就体现在现代汉语“牛”的义项中,于是“牛”就有了“大”的意思。
同样,我们在标注“猴”字语料的时候,发现“猴”字在“猴急”、“猴精”、“猴瘦”等词语中的意思在现有词典中也是查不到的。对母语是非汉语的外国人来说,他们会很困惑为什么汉语中有把人比喻成像猴子那样精的说法?为什么把人的智商比喻成动物的智商?如果我们事先告诉他们“猴”在汉语中有“很”的意思,那么他们就能愉快地接受了。“猴”有副词性用法“很”的意思也可以用词义七因素新说来解释:“物性,是事物反映在意识中的群体特征属性或本质属性。”[14] 129在汉族人的意识中,“猴”区别于其他动物的群体特征属性是行动急促、外形像人很精明、与其他动物相比“猴”显得很瘦,经过语义磨损,“猴”的上述语义特征逐渐消失,最终在汉族人的意识中“猴”有了一个很宽泛的副词性用法“很”,这个意义正是“猴”的动物属性在汉语中的显现。
第六,熟悉与汉语常用词相对应的英语单词在《牛津高阶英语词典》、《韦氏高阶英语词典》、《麦克米伦高阶英语词典》、《朗文当代高级英语词典》等英语类中型语文性词典中的释义,借鉴英语词典中常用词义项的编排方式,把它们应用于相应的汉语常用词义项编纂中。例如:《现代汉语词典》(第6版)中“跑”的第一个义项是“两条腿或四条腿迅速前进(脚可以同时腾空)”,但是我们通过语料库标注发现类似“跑”的义项还有“人凭借汽车、火车等交通工具的跑”、“汽车、火车等交通工具自身的跑”、“分子、原子、离子等的跑”、“土、水、风、电等物态东西的跑”等,它们是《现代汉语词典》“跑”的第一个义项所不能概括的。在这种情况下,我们可以借鉴《牛津简明英语词典》中以义项群编排多义词义项的方式,把《现代汉语词典》“跑”的第一个义项设立为主义项①“快速移动”,然后再分别列出次要义项:a.两条腿或四条腿迅速前进(脚可以同时腾空);b.汽车、火车等交通工具自身快速前进;c.分子、原子、离子等快速移动;d.土、水、风、电等物态的东西快速移动①。英语词典中除了以义项群的方式编排多义词的义项外,还有分词性排列义项、以释义提示语的形式释义等等,都值得我们借鉴。
四、结语
目前我国汉语类词典的编纂者乃至研究现代汉语词汇的学者还没有大规模地运用语料库技术对汉语常用词的义项进行丰富与补充,汉语类词典中常用词义项的编纂水准至今仍处在20世纪五六十年代靠语感编纂的水准。因此,相对于以往辞书中多义词靠语感编纂的情况来讲,充分利用语料库资源和计算机强大的计算功能来统计并分析每个常用词的义项在现代汉语中的分布情况,是一座非常诱人的学术富矿,有着巨大的挖掘潜力。张志毅先生指出:“今天的语料库已经成为能量巨大的语言样本集。它正在印证、充实、修订、改写甚至颠覆以往的辞书释语。它也正孕育出、孕育着更现代、更可信的辞书。”[15] 42真正建立在语料库技术基础上的汉语词典,必将会在中国辞书史上留下浓重的一笔,成为中国辞书史上具有里程碑式性质的辞书。