打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
【干货版】刘海涛纵议大数据时代的语言研究(上)

2017年2月12日下午,“语英坊”(EngLing Workshop)系列学术讲座的第一讲在北京社科书店成功举行。国际世界语学院(Akademio de Esperanto院士、浙江大学求是特聘教授、广东外语外贸大学云山领军学者刘海涛,就“大数据时代的语言研究:距离与方向”这一主题,为约70位与会专家、学者、企业界代表及其他社会各界听众带来了一场精彩的讲座。



中国社会科学院语言研究所《当代语言学》期刊责任编辑王大惟副研究员组织并主持了此次讲座。




刘海涛教授在历时近三个小时的讲座中,针对语言研究在“大数据”时代面临的挑战与机遇,以他及所率团队在语言学领域多年来潜心钻研、享誉国际的学术成果为例,深入浅出地讲解了如何以(依存)距离和方向为纲,通过文本的计量来进行语言与认知及语言类型方面的研究。贯穿讲座始终的“中国语言学国际化与科学化”这一议题,引起听众的极大共鸣。在“大数据”时代,语言学如何从艺术与人文学科向生命与认知科学转向,中国语言学如何走向国际,乃至语言学如何实现科学化这些问题振聋发聩,引发了每位参会人员的深思。现场气氛热烈,听众还就研究方法、数据获取及研究课题等方面跟刘海涛教授展开了广泛而深入的交流。


1.  大数据时代的转变


讲座一开始,刘海涛教授援引了舍恩伯格(Viktor Mayer-Sch?nberger)和库克耶(Kenneth Cukier)在《大数据时代:生活、工作与思维的大变革》一书中的一段话:


“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”。


借此,刘海涛教授引出了本次讲座的核心:转变。大数据开启了一次重大的时代转型。



与传统的研究方式相比,大数据时代给我们带来了三大转变:


要全体,不要抽样;要效率,不要绝对精确;要相关,不要因果

这种转变将为人类的生活创造前所未有的可量化的维度,之前无法量化的研究对象可以通过量化展开精确研究。例如,Lieberman等(2007)通过对跨越200年的文本中英语不规则动词的规则化使用的量化研究,发现经常使用的不规则动词不容易规则化,而不经常使用的不规则动词反而容易规则化,这也是 chide 这个罕用词被称为“世界最快动词”的缘由。


英语不规则动词的规则变化规律


以上研究表明,数据的量化分析有助于揭示过去不好分析或无法分析的语言事实与规律。哈佛大学政治学系教授加里·金(Gary King)在最近的一次演讲中也提出了类似的观点(http://news.sjtu.edu.cn/info/1007/1275714.htm)。他指出:


在大数据时代,我们可以通过量化过去不能量化的信息、使用精妙的统计学方法,使得分析这些信息成为可能

在其他人文学科中,数据与理论之间也有各自的问题。对此,刘海涛教授提出了自己对“数字(数据)人文”的一些看法。数字人文的真谛是:把数字(数据)与知识、社会、文化、行为、人联系在一起,而不是简单地把一本书、一幅画数字化后保存在计算机里;通过可视化的方法,更直观地展现这种联系;以及通过数理统计方法,更科学地解释数据背后隐藏的有关人类认知、行为的模式以及人与社会、自然交互的规律。


在此背景下,语言学家的任务是什么呢?我们知道,语言学是研究语言结构与演化规律的学科。语言的输出端是线性结构,而人脑中是网络结构,二者具有不同的结构。那么线性结构与网络结构之间的转换是如何及何时进行的?再者,字同现、词同现、句法、语义、概念等层面有什么区别?这其中又有什么规律?对于这些问题,刘海涛教授指出,我们都可以通过对真实语料(大数据)的研究来探求。正如伯纳德·科姆里(Bernard Comrie)在《语言共性和语言类型》这本书的前言中指出的,“语言学研究语言,而语言是民众实际所讲语言。”


刘海涛教授强调,语言数据来自语言实践,因此,我们要用真实语料来进行语言研究。

这样,才能反映出语言使用的真实面貌,而不是存在于人脑中的假设。Rickheit和Sichelschmidt(2007)也曾明确指出:


“语言学已经从艺术与人文学科转向认知与生命科学。语言学的研究方法也从内省式的方法变为使用复杂技术与最新设备的实验方法。”

可见,语言学家需要为语言学的转向做好准备,迎接大数据时代带来的研究方法与理念上的转变。这将有助于中国语言学的国际化与语言研究的科学化进程,进而真正实现作为一门(领先)科学的语言学。


2.基于依存语法的计量研究


接下来,刘海涛教授结合他和团队成员多年来的研究经历与学术成果,介绍了在大数据时代探索中国语言学国际化与语言研究科学化的成功经验。


2008年至今,刘海涛教授作为第一(通讯)作者的语言学相关文章,已有17篇收录于SCI(科学引文索引)、43篇收录于SSCI(社会科学引文索引)、41篇收录于A&HCI(人文艺术引文索引)。他也是近十年来被WOS(Web of Science)核心库(SSCI、A&HCI、SCI)收录语言学论文最多的大中华区学者,名列爱思唯尔2014、2015“中国高被引学者”。


这些显赫的成果背后是刘海涛教授及其团队多年来在基于依存语法的计量研究方面所做的大量工作与不懈的努力。他们主要从依存距离与认知规律、依存方向与语言类型学、复杂网络与形态学这三个方面展开研究,探索人类语言的普遍特征以及语言类型研究的新范式,在计量语言学、心理语言学、认知科学及语言类型学方面,都具有开创性的重大意义。


刘海涛教授在依存语法的基础上研究依存距离与依存方向。依存语法是法国语言学家泰尼埃(Tesnière)在对古希腊语、古罗马语、罗曼语族、斯拉夫语族、匈牙利语、土耳其语和巴斯克语等数十种语言对比研究的基础上提出的一种普适的语法理论。刘海涛(2009)总结道,泰尼埃对句子的分析重在寻求句中各词之间的关系。依存关系是一种词间句法关系。依存句法是一种以依存关系为基础的句法理论。


刘海涛教授及其团队用了十余年时间不断完善汉语句法标注体系并标注了各种语体的汉语依存树库,这些资源为研究汉语句中各词间的句法关系奠定了重要的基础。


与之相关的另一个重要的学术思想是,语言是人驱动的符号系统(Liu 2014)。现代语言学之父索绪尔提出,语言是一个符号系统。刘海涛教授在此基础上,强调人的重要作用。因为人兼具心理、生理与社会、自然的属性,所以语言呈现出一定的普遍性与多样性。前者对应于一般的认知规律,后者对应于生态的多样性。


这从另一个角度再次说明,语言研究要注重对语言普遍规律的探寻与语言多样性的考察。而基于真实语料的数据驱动的研究方法是达到这一目的的一种重要手段。

接着,刘海涛教授分别从(依存)距离、(依存)方向,以及距离和方向这三个方面介绍了他们的研究工作与成果。


2.1 依存距离与认知规律


依存距离指的是构成依存关系的支配词和从属词之间的线性距离。对于依存距离的计算与分析可以反映出句子分析的难易程度。因为分析句子就是将一个线性字符串转换为一个依存结构树的过程,也就是说:


一个词只能在与他的词连接,形成依存关系之后,才能从短时记忆中移去。

进而,真实文本的依存距离具有某种分布规律吗?这些规律是人类语言特有的吗?这些规律的认知基础是什么?


刘海涛(Liu 2007)分别考察了随机语言和自然语言的依存距离的时序分布,得到了他们的依存距离均值(MDD),发现依存距离分布是有规律的,而且跟其他随机语言相比,人类语言的依存距离是最小的

他在Hawkins(1994)和Gibson(1998)的理论成果的基础上进一步提出依存距离的三个假设:(1)人类语言处理机制偏爱的句子,其依存距离要尽可能地小;(2)这个小的要求是在一个范围内,与人的工作记忆容量差不多;(3)认知和语法共同起作用。不过,以上研究只采用了一种自然语言的样本,还无法说明人类语言的共性。


于是,刘海涛(Liu 2008)在二十种语言的真实语料的基础上展开进一步的研究,并首次发现,依存距离最小化可能是人类语言的一个普遍规律



自然语言与随机语言的依存距离均值


如上图所示,汉语的依存距离均值最高,为3.66。以上这些语言的依存距离均值,都在现代心理学普遍认定的工作记忆容量为4的阈值内。刘海涛教授的这一发现,是首次使用大规模真实语料的文本而得出的语言普遍性的规律,具有重要的创新意义,并对该领域的研究产生了深远影响。2015年,麻省理工学院弗特勒尔等人(Futrell, et al. 2015)对37种自然语言进行了基于语料库的大数据分析,再次验证了语言中的依存距离具有最小化的倾向。


扫描右上角二维码即可下载全文,浙大学报棒棒的!


除了依存距离的最小化,刘海涛教授还对依存距离的分布展开了研究。他提出了如下的问题:依存距离分布有没有规律?依存距离分布的规律是否符合一定的分布模型?依存距离分布模型是否会随不同语言而异,导致分歧的主要原因是什么?


陆前、刘海涛(2016a)对30种语言的真实语料进行了依存距离分布的分析,研究发现,人类语言依存距离分布具有规律性;本质上,其分布都是一种指数和幂律混合的分布模型;多数语言符合一定的分布模型,指数和幂律分别较适合拟合“短句”与“长句”的依存距离分布;



为什么长句是幂律呢?因为幂律是系统自适应调节的结果;两种分布模型分歧的主要原因可能受拟合方法、不同语言、句长和文本大小等因素的影响。


再者,陆前、刘海涛(2016b)还探讨了为什么人类语言不喜欢交叉


他们提出了一种枚举依存树的方法,进行依存句法结构计量研究,结果显示:语言中的依存交叉并非偶然现象,根据计数公式推导出的交叉依存比例,远高于真实语言树库的统计数据;平均依存距离难以区分交叉与不交叉依存;依存距离最小化能约束交叉依存比例降至真实语言情况,但此时平均依存距离与真实语言不同。这些说明除受人类认知机制约束外,可能还存在其他因素促使人类语言倾向于不交叉。



刘海涛教授进一步指出,对于语言共性的发现是具有应用价值的。最近,谷歌的人工智能团队在机器翻译上取得了突破性的进展,其核心理念是找到了具有相同含义的句子的共同基础,而不用考虑他们属于哪种语言。

(https://www.newscientist.com/article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是说,不同语言表示语义和认知的概念结构基本相同,而线性序列则是不同的。



那么,从大脑中表义相同的网状结构转变为线性结构时,就需要符合认知的普遍规律,而这个受认知机制约束的线性化原则可能就是依存距离最小化


2.2 依存方向与语言类型学


刘海涛团队的另一个重要发现是关于依存方向与语序类型之间的关系。在语序的类型学研究中,句中语法单位的线性顺序通常被看作是区分不同的语言的首要条件。Greenberg (1963)在该领域做出了开拓性的成果。在他提出的45种语言的共性中,大多会描述该条共性的使用情况,如:


“9:在远远超过随机频率的多数情况下,涉及全句的疑问小词或词缀,在前置词语言中居于句首,在后置词语言中居于句末。”
“17:除了偶然出现的情况外,优势语序为VSO的语言绝大多数是形容词居于名词之后。”
“18:当描写性形容词前置于名词时,除了偶然出现的情况外,绝大多数情况是指别词和数词也处于名词之前。”


可见,这些共性的前提条件也是统计的结果,只不过限于当时的研究条件,无法在基于真实语料的大数据上来统计。现在,我们不仅有基于真实文本的语料库,还有经过句法标注的语料库。其中,依存树库就是一个很好的资源。这是因为,在对语言类型的研究中,泰尼埃早就发现了不同语言在中心语置前还是居后上有不同的倾向性(Tesnière 1959)。而中心语置前还是居后在依存语法就可以表现为支配词前置或后置,这种信息在依存树库中都是有明确的标注的。



据此,刘海涛(Liu 2010)采用二十种语言的大规模真实语料,考察了这些语言的依存方向分布,发现语序类型是一个连续统(如下图所示)。这是在世界上的首次发现,该项研究开辟了用大数据进行语言类型研究的新路子。



维基百科上有人这样评价这项发现:“该研究为现代的语言类型学提供了一种全新的先进方法。”

二十种语言的依存方向分布


如图所示,任何一种语言都可以在上述这个连续统中找到自己的位置。这意味着,语言可以在这个连续统中根据距离的远近来进行聚类分析,而传统的类型学研究是按照分类标准来划分出几个具体的类型。


此外,我们也可以利用依存方向来考察优势语序(dominant order)。


刘海涛(Liu 2010)从这二十种语言的依存树库中提取出主语-动词、宾语-动词和形容词-名词这三对依存关系,发现所得到的优势语序的结果跟Haspelmath等(2005)的结论极为类似。


这就说明了,我们可以利用树库作为语言类型学研究的数据基础。


跟传统的类型学的研究相比,刘海涛(Liu 2010)这篇文章所使用的方法具有如下的优点与创新性


它是基于统计和语料库的;

它具有鲁棒性(robust)和非离散性;

它是细粒度的;

它是对语言更为整体性的类型学方法;

它可以跟计算语言学共享语言资源。


英国著名语言学家Hudson教授对这篇论文赞赏有加,说它充满了原创性的思想和重要的数据。


敬请期待下篇。精彩内容,岂能错过?看大家笑的,那是被精彩到了呀。




语英坊,语言奥秘探索者的家园


【logo虚位以待,征集中……】

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
大数据时代的语言研究:距离与方向
民族语言学论坛系列讲座第三十八讲会议报道
谈谈功能语言学各流派的融合
胡乘玲 孔国兴 | 中国语言文字研究七十年之际国内汉语语法研究管窥
浅谈语言类型学视角下满语研究的发展空间
35年的圆梦之旅:中国牛教授刘海涛当选世界语学院院士
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服