(图片说明:电子表格发展历史 资料来源:The Data Labs)“原本,我们只处理常规数据,随着21世纪互联网的兴起,数据越来越海量,比如90年代语义网运动,2010年之后的大数据运动。伴随着社交网络的出现,数据量暴增,企业内的数据也开始集成,同时,关联开放数据(Linked Open Data)与政府开放数据(Government Open Data)等运动,共同造就了一个大数据时代。”鲍捷说。也正是海量数据的出现,才有了数据科学的极大发展。鲍捷研究的是“知识图谱”,在他的认知中,知识图谱本质就是关于“有智能的”数据的科学,只是其中的数据分为“死”数据和能够生成数据的“活”数据。“如果把数据看成一个点,数据和数据之间有着众多的关联,如果我们拥有了某些特定的数据,我们就能推理和发现数据与数据之间的关系。能在数据之间建立新联系的数据,我们就称之为知识。”鲍捷解释道。这种“能产生数据的数据”,就是知识。它是一种“结构化数据”,通过这些数据可以把一些常规的分析工作让机器自动完成。在这一点上,它和传统数据库的分析是不同的,它是尽量让智能体现在数据中,而不是代码中。所以,知识图谱的本质就是研究怎么把智能直接保存为数据的一种科学。起初,人类构建的知识用文字存储在网络中,典型的例子就是维基百科、百度百科等知识库,但早期能用到的信息非常有限。伴随着最近5年自然语言处理技术的发展,通过实体提取、关系提取等技术打造知识图谱,在金融、法律及医疗等特定场景上证明是可行的(达到工业级水平的容错)。鲍捷补充道,在没有知识图谱之前,技术人员把知识写入程序之中,只能用知识编辑器,比如 CYC 公司从1984年开始手工构造知识库,成本极高。当知识越积越多时,这样的写入就非常不经济了,后来知识表示语言(Knowledge Representation)被发明出来,用以表达更为复杂的知识结构。最终,从知识表达中抽象出现的知识工程越发大众化,便形成了今天的知识图谱。2 从师出名门到商业落地 1988年,还在上小学的鲍捷就对计算机有所了解。那时学校唯一的机房里,陈列的一台台电脑着实让他着迷。到了高中,鲍捷就成了班上的计算机课代表。90年代,鲍捷考上了合肥工业大学,师从高隽教授(现任合工大学术委员会副主任、秘书长),开启了自己的计算机科学学术之旅。合工大的电子工程背景为他打下了工程思维的基础。直到现在,当文因互联面试技术人员的时候,鲍捷都会守在最后一关,抛出一些工程类的问题,考验应聘者的工程思维能力。比如卷积神经网络背后的工程原理、边缘检测的原理等等。要想理解这些技术原理,必须有换个角度思考的能力,如理解“信息”、“频率”这些工程概念。“计算机科学和电子科学都是研究信息,电子科学最初研究的是连续信号,计算机科学研究离散信号,但深入以后会发现两者有深刻的对应关系。我很感谢我的那段电子工程的教育背景,让我想明白了计算机科学的很多问题。”鲍捷说。鲍捷之所以如此看中工程学,与当下人工智能的发展不无关系。人工智能在过去的60余年,经历了三起两落,而每一次人工智能获得的长足进步,都不是因为理论研究的质变,而是在逆境中融入了工程思维,用工程手段实现了突破。鲍捷解释道:“比如推理机在90年代发展的停滞,决策树的算法难以突破等,最终,都是应用了包括剪枝原理等工程方式来解决的。”合工大研究生毕业之后,鲍捷又陆续在艾奥瓦州立大学、伦斯勒理工学院完成了博士与博士后项目,并在麻省理工学院(MIT)完成了一年半的分布式信息组访问研究员的工作。高隽教授领他进入了计算机科学的研究之门,在艾奥瓦州立大学读博时的导师Vasant Honavar(现宾州州立大学教授)又让他进一步认识了什么是世界顶尖的学术研究。初到美国的鲍捷接触了大量美国同专业学生,他觉得自己并没有比其他人懂得少。但Honavar教授多次带领鲍捷参与世界顶级学术会议,并将鲍捷送到NSF(美国国家科学基金会)的几个研讨圆桌会中,这让鲍捷领略了世界级的学术水平。Honava最终将鲍捷推荐给了“语义网之父” James Hendler。鲍捷说,Hendler是一个有远见卓识的大宗师。如果说普通科学家看的是树上能否长出绿叶的话,Hendler关注的是如何让树抽出新枝,长出更多绿叶。在伦斯勒理工学院做博士后研究员的鲍捷被Hendler推荐到了W3C(万维网联盟)的OWL(本体网络语言Ontology Web Language)工作组,与业界最顶级的科学研究者一起工作,这让鲍捷受益匪浅。而其学术生涯的浓墨重彩还属为万维网之父、图灵奖得主Tim Berners-Lee工作的那几年。在MIT的研究工作中,Tim Berners-Lee让鲍捷体会到什么是最顶尖的科学家——一个从哲学的层面,用上帝视角看待人类问题的“God”,并影响与颠覆了鲍捷的思维。
在面对AI与人类关系的思考中,大部分专家认为机器无法取代人类的原因是,机器只懂识别,没有人类的认知能力。而鲍捷认为,机器不会拥有人类意识的原因恰恰相反,是因为人的意识并不高级,未来的智能一定会超越人类的认知上限。社会机器将在总体上超越人类社会总体,而非单个个体层面超越。 数据科学50人成员 鲍捷博士,文因互联CEO,联合创始人。师从图灵奖获得者 Tim Berners-Lee 与 James A. Hendler两位知识图谱领域创始人,衣阿华州立大学博士、伦斯勒理工学院(RPI)博士后、MIT访问研究员。研究领域涵盖自然语言处理、语义网、机器学习和描述逻辑等。目前任中国中文信息学会语言与知识计算专委会委员,W3C顾问委员会委员,中国计算机学会会刊编委,中文开放知识图谱联盟(OpenKG)发起人之一。