《知识图谱与下一代人工智能》清华大学人工智能研究院知识智能研究中心主任李涓子

首先祝贺印象笔记在中国七周年，也非常高兴在这跟大家分享我们在知识图谱和对人工智能的一些思考。这是我的题目，就是《知识图谱与人工智能的未来》。

我们先看一下人工智能对知识的需求和挑战。刚才我们也说了印象笔记就是组织大家知识的这样一个工具，我们看知识和人工智能这样一种结合给大家带来了什么。这是张钹院士，我们人工智能研究院的院长，他对人工智能的看法，我们从这切入去看知识。人工智能实际上就是去设计和研制一个智能的系统，而这个智能的系统可以去感知，可以去推理，可以去做决策，可以采取我们说的智能的这样一个行为。

张钹院士把人工智能的发展归成三个阶段，我觉得非常有意思，这三个阶段都是来看一个机器智能的系统是怎么对世界知识去进行认知的。第一个阶段，实际上就是我们说以专家系统为代表的， We know what we know，就是我知道，我知道什么。这个阶段就是“知其然，也知其所以然”的阶段，也就是说计算机知道的东西，它也知道为什么是这样，就是以专家系统为代表，比如说地质勘探领域专家系统。第二个阶段是什么阶段呢？就是我们说现在大数据、机器学习、深度学习的这样一个机器智能的阶段。这个阶段大家都知道在计算机视觉、机器翻译、语音识别上取得了巨大的成功，但这个阶段是实现了智能感知的这样一个阶段。张院士认为这个阶段，我们是“知其然，不知其所以然”。也就是说所有的东西，只要是经过我的这个智能系统，我知不知道，我都会给你个决定。这样一个系统实际上是不可信的系统，也是不可解释的系统，就是We don’t know what we know。第三个阶段，就是未来的人工智能系统是希望能够我们知道我们知道的，我们也能知道我们计算机得出来这个结果也是可以解释的。这个阶段是什么阶段呢？就是我们说计算机有自知之明，它对它知道的东西，它能够做出决策；对它不知道的东西，也能说它不知道，这就是我们说的Self-knowledge。

第一阶段，“知其然，知其所以然”当然好，但是为什么它不能实现现在的人工智能呢？我们说在这样一个“知其然，也知其所以然”的阶段，实际上人的知识是非常难获得的，而且我们第一代的人工智能系统受限于软件和硬件，得到的知识是非常有限、非常稀疏的。张院士说第三代的人工智能是什么呢？就是可解释、鲁棒、可信、可信安全的人工智能，也就是说当你一个智能系统，比如说一个临床的专家诊断系统，它给病人做诊断的时候，病人怎么相信你的诊断是对的。这个时候你要给他解释，你做这个诊断所依据的这些因素，而现在我们说深度学习的模型是做不到的。因此我们说未来的人工智能系统应该是从不带理解的人工智能而成为带理解的人工智能，这是我们说第三代人工智能，也是我们未来大家一起努力来完成的。

也就是说第三代的人工智能系统的话，我们看那个灰色的就是我们第一代专家系统，那个知识是非常少的。我们希望第三代的时候，我们知道我们为什么知道，也就是We know something about。然后我们对我们不知道的，我们也能确定我们不知道，这样我们就可以去做解释，也就是说让计算机的人工智能系统能够做到有自知之明。

在这样一个过程里面，实际上我们把浅绿色变成深绿色，这个也跟今天的印象笔记颜色非常搭。这样其实就是拓展了一个人工智能系统的视野，我们从原来的We know，然后包含了深绿色部分的内容。在这样一个过程中，其实我们说知识是非常必要的这样一个系统。举这样一个例子，比如说夏天就像烤箱，对于人来说可能很容易理解这个句子，但是对于计算机来说，它理解这个句子就非常的难。首先它需要语言的知识。我们看到的分析器来得到这个语言的结构，比如说知道summer和oven，我们知道这个oven是火炉。火炉是什么？火炉是非常热的，那也就是说我们知道利用常识、人的常识知道今年夏天的温度会很高。紧接着温度高了，我们会开空调去降温。对于金融这样一个做股票的行业来说，可能空调的股票就会大涨。

从这样一个例子里面，我们看到也就是说一个智能系统的话，它是需要常识语言知识、常识知识、世界知识和行业知识这样一个支持，要做到这样一点，其实对于一个人工智能系统来说是很困难的，但是知识对于人工智能系统来说，它又是非常必要的一个东西。从刚才这个例子中也能看出来。

我们说知识图谱和人工智能之间的关系是一个什么样的什么关系呢？也就是说我们要实现一个可解释的、鲁棒、可信和安全的人工智能系统的话。我们分析现在的深度学习，其实它学习到的是数据中的底层特征空间，但人认知世界的是一个复杂的语义空间。我们其实可以用知识图谱作为一个桥梁，建立底层特征空间与空间之间的这样一种关联。而知识图谱在这里面实际就起到了把我们说的互联网的内容，这样一个底层的特征的这样一些信息映射到我们对客观世界的认识，包括对实体、对关系、对事件的这样一个认识，这样可以帮助我们更好的去管理知识。就像印象笔记里面，它有各种的不同媒体的非结构化信息，我们可以在知识这样一个结构下来进行这样一个组织。

我们从这样一个过程可以看到，其实知识工程，也就是说去研究如何去建立基于知识系统的这样一个学科。其实它在人工智能的发展中一直是非常重要的作用。我们从刚才说的领域专家系统的稀有知识，到开放环境下、有互联网环境下与外部结构化的内容，以及到我们看到的大规模知识图谱，还有沃森的这样一个应用。我们看知识在人工智能系统的应用越来越可以显示出它强大的威力。我们在当前大数据这样的环境下，实际上我们是可以去结合传统的第一代人工智能的方法和我们说第二代的基于统计或深度学习的方法，去克服我们说的这两种方法所带来的不足。这个图其实就是说我们可以用符号的知识来建立它的表示和解释能力，然后立即数据驱动来去发挥计算机机器智能的计算的能力来产生智能的系统。这就是我们说大数据环境下的智能系统。我们可以从互联网和行业的大数据来获取知识，通过建立的这个知识再反哺给我们的应用系统。它们之间可以是一个相互作用的过程。

我们说知识工程的生命周期，就是知识建模、知识获取、知识管理以及知识的存用。这是在去年8月份的时候发布的一个技术成熟度的曲线，在这里面我们看到了通用的人工智能和知识图谱两条线。从这里面我们可以看到知识图谱的发展正在以一个上升阶段。其上升阶段需要2-5年的时间。人工智能应该是更长的一个时间。因此，通用人工智能的实现其实需要知识图谱的支持。因此，知识图谱也是我们未来人工智能发展的一个知识的资源。我们说知识工程就是建立基于知识系统的这样一个技术。这里面有很多的挑战，理论上我们说基于知识驱动和数据驱动相结合的知识的表示和推理，还有我们说的知识获取的算法，以及如何去建立我们说的知识引擎的平台，能够把数据变成知识，还有对知识的这样一个评价等等。我们概述一下，人工智能和我们说的知识图谱之间的关系，以及我们在这样一个第三代人工智能下知识的作用。

接下来我就简单介绍一下清华大学人工智能研究院的知识智能研究中心。实际上在去年的时候，清华大学成立了人工智能研究院，然后在今年1月份的时候成立了清华大学人工智能研究院的第一个研究中心，就是知识智能的中心。张钹院士就认为，实际上知识在人工智能系统的研究中起着非常重要的这样一个作用。我们研究中心的目标，实际上一个是去研究支持鲁棒和可解释的人工智能知识的表示和推理。无论对机器学习，对我们说的智能系统的赋能，实际上都是非常重要的。另外是构建知识平台，其次是我们希望能够建立这样一个平台让大家进行广泛的学术交流以及促进产学研的合作。在这个平台上，其实我们也发布了一个平台，这里面有一些资源，我简单介绍一下。第一个就是我们说的常识知识。也就是说我们知道火炉是热的，这种知识实际上是需要去构建的。这是董振东先生用30年时间去建立的一个语言的常识知识库，就像这里面医生是医治的这样一个动作发出者，医治的对象是病人，这种常识像人一样，我们也要把它交给机器。另外我们在这个基础之上，为了方便计算，还建立了知识计算的框架，实际上主要是把知识表示成向量，让它在计算机中更好的去做计算。还有一个应用平台，实际上就是做科技情报挖掘的平台。对我们说的互联网大规模论文进行采集，然后根据论文信息对专家进行画像。我们就可以找专家，找一些好的论文。在这个基础之上，我们成系列地对技术做出综合的报告，包括它的发展趋势等等。

接下来我就介绍一下我们的一个基础知识资源叫XLORE，它是一个中英文的、跨语言的百科知识图谱。这个知识图谱，实际上我们知道百科是记录人类知识的这样一个知识库。对于互联网的百科，大家肯定都想到了维基百科、百度百科。这些百科资源其实是面向人来去理解的，如何变成计算机可以去计算的结构化的知识？实际上就是我们XLORE主要的工作，我们主要集成了百科百科、维基的中英文百科来去构建。构建目标其实就是把对百科的结构化反映人对客观世界的认知，建立结构化知识可以促进知识共享，丰富世界知识，同时利用多个百科提高知识获取的精度，而这些知识实际上是结构化的产物，可以帮助我们更好的理解互联网内容。

我们的框架实际上有很多关键技术，比如我们说概念体系结构的建立，然后我们对应的异构资源之间的匹配和对齐的技术。我们在这个基础上已经实现了一个XLORE的知识图谱。该图谱包含了上千万实体知识，同时也提供API的服务，还提供把这些知识用到互联网内容去做互联网内容的链接，帮助我们更好的理解互联网。这部分是我们的知识图谱和国际相关知识图谱数据的比较，其实DBpedia、YAGO、Freebase、BabeINet，这都是比较著名的国际上的几个知识图谱。我们实际上更多的是从中文的知识内容中补充到英文知识图谱。它们之间的对应关系以及结构化的知识，相比较几个著名的知识图谱来说，我们在中文的概念数、实体数以及中英文之间的跨语言链接上，应该都比这些已有的知识图谱数据包含了更多的内容。我们可以实现把知识图谱和文本做关联的工具，实际上我们这些也给常诚他们试用了。如果给定大家一个内容，我们通过关联知识图谱就可以知道在这里面连接知识库的哪些知识点。现在这个XLORE其实也提供数据API的服务，我们已经上亿次的调用，然后也覆盖了很多个国家和城市。

以上就是我的介绍。最后总结一下，我们跟印象笔记未来合作的前景。从上面我们可以知道，知识图谱是对客观实体及关系，是对客观世界认知的反映。其实印象笔记本身就是记录大家知识的这样一个过程，其实这里面也涵盖了大家对客观世界的这样一个认知。我们说人工智能的未来是发展可解释、鲁棒和安全可行的人工智能。知识图谱实际上是支持可解释、带理解的人工智能的一个基础的设施，我们说是它的一个必要条件。因此，我们未来建立知识引擎去实现知识智能服务的这样一个新业态，实际上是未来我们说“人工智能+”的一个发展趋势。而我们说印象笔记作为最大的非结构化数据沉淀的平台，里面包含了文本、图片、音视频，更关键的是我们看到了它们之间在这样一个结构下去做了一个紧密的关联。因此，我们说印象笔记在知识、在下一代人工智能发展中的潜力还是非常巨大的。我的报告就这么多内容，希望大家一起来去为第三代的人工智能构建这种知识，去获得更多知识的赋能。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。