机器是否存在智能？

一、图灵测试的提出

英国科学家图灵（Alan Turing）曾首先提出现代计算机的数学模型——图灵机。这个模型对后世计算机和计算机科学的发展有深远的影响。图灵因此而获得了极大的荣誉。目前世界上计算机科学的最高奖就是图灵奖。

图灵还有一项重要贡献。这项贡献也许不像图灵机的贡献那么大，但是也涉及计算机科学的一个根本性问题，对后来人工智能的研究有重大意义。这就是图灵测试的思想。自从计算机诞生以后，人们对计算机是否具有智能进行了长期的争论。图灵在1950年发表于《哲学》杂志的一篇文章认为，（关于机器智能的）争论无法解决，是由于我们没有一个关于“机器”和“思维”（智能）的明确定义。他说：“首先，我们必须考虑如何给‘机器’和‘思维’下定义……然而这种想法是很危险的……我不打算去想出一个定义，而是用另一个问题来代替这个问题，这个新问题与那个老问题紧密相连，并且相对来说又不那么模棱两可。”为此，图灵设计了一种实验的方法，来判定机器是否能够思维〈即机器是否具有智能）。这就是著名的图灵测试。其方案为z由测试人A与另一房间中的两个对象B和C对话，B和C中有一个是人，另一个是计算机。如果经过一段时间的对话以后，A不能断定B和C中谁是人，谁是计算机，则认为计算机己具备了智能。

图灵测试是有其特定含义的，即指通过人-机对话来判断机器是否具有智能的方法。有人认为只要计算机在某些方面做得很好，甚至于让人看不出来这是计算机做的，就算是通过了图灵测试，这是一种误解。我们认为这种看法是不符合图灵的原意的。实际上，计算机在计算速度方面早就做得比人强了。计算机在艺术方面已经可以创造出能够乱真的作品。人们也并没有因之说计算机通过了图灵测试。图灵测试就其本质来说，测试的是一种特定的智能，我们称之为言语智能。

很多人对图灵的观点是持赞同意见的，当然，他们对图灵测试中的具体测试方法作了很多改进和推广。米奇（Donald Michie）指出，因灵的仅仅依据被试的言语表达来判定机器是否具有智能，失掉了人类在思维过程中的某些重要部分，因此对图灵测试应该进行推广。米奇同时提醒人们，不要将图灵的原意扭曲，那就是，图灵提出这个测试方法，并不是为了验证机器是否具有与人一样的思维能力，而是为了验证机器是否有思维能力。米奇对图灵测试应该被推广的观点，是基于这样一个事实：很多具有特定技能的人，并不能很好地用语言表达他们是如何运用这些技能的。因此，如果图灵测试用来测试对方是不是某一方面的专家，而且仅仅通过终端文字的形式来进行栅试，人们有时是无法正确分辨的。

哈纳（Stevan Harriad）还提出了完全图灵测试（total turing test）的观点。他认为，非语言行为同语言行为在表达人类的思维方面至少具有同等重要的作用。因此他指出，图灵测试不应被简单地看作是一个测试过程，而应该把它当作一个科学准则。一个完全图灵测试除了包括图灵所说的语言行为之外，还应该包括机器的非语言行为在内。而且这种测试不应该被限制在短短的5分钟之内，而是应该在很长的时间内（lifetime）进行。

在哈纳的基础上费彻（James H Fetzer）还进一步分析了图灵测试（TT）与完全图灵测试（TTT）之间的关系。他认为TT与TTT至少有两点不一样：TT认为凡是通过测试的机器都具有智能，它是“具有智能”的充分条件，而TTT则认为凡是通不过测试的机器都不具有智能，它只是

“具有智能”的必要条件；另一个区别是它们在测试时采用的形式不同，TT仅仅依据语言行为来进行判断，而TTT则综合了非语言行为。

二、对哲学家和认知科学家的挑战——机器能否具有智能

关于计算机是否和如何才能具有智能的问题首先是一个哲学问题，因此引起了哲学家的极大关心，历来争论激烈。

图灵在这篇文章里，已经预见到会有很多人反对他的这个观点。为此，他分别就这些反对者的观点作了解释。

（1）来自神学的反对意见：“思维是人的不朽灵魂的一种功能。上帝赋予每一个男人和女人以一颗不朽的灵魂，但从未将它赋予任何其他的动物或机器。因此，动物或者机器不能思维。”

（2）所谓驼鸟政策式的异议：“机器思维后果太令人恐惧了。但愿机器永远也不会有思维。”

这两种反驳在图灵看来，并不是很有力的，因此我们这里不做更多的解释。

（3）来自数学的异议：“根据哥德尔定理，机器能力有限，而人类智能则没有这种局限性。”图灵认为，尽管己经证明任何一台特定的机器都是能力有限的，但并没有任何证据说，人类智能就没有这种局限性。

（4）来自意识的论点：“机器只能机械地执行事先编好的程序，而不能感受到它究竟在做什么，机器是没有意识的”。图灵认为这是一种唯我论的表现。按照这种观点，最极端的形式就是：若要肯定一台机器是否能思维，唯一的途径就是成为那台机器，并且去感受它的思维活动。同样，若要知道某人是否在思维，唯一的途径就是成为那个特定的人。但这显然是不可行的。

（5）来自种种能力限制的论据：“现在的机器虽然可以干很多事情，但有些事情是机器永远也不能做到的，比如：和蔼，机灵，美丽，富于首创精神，有幽默感等等。”图灵认为这是一种基于归纳得到的结果，因为人们还没有看到能够做到这些事情的机器，所以就认为机器永远也不可能做到，这是缺乏根据的。更激进的反对观点认为只要做某件事的方法能够用机器所能采用的方法进行描述，那么人们就会认为这种方法实在是太低级了，称不上是智能行为。这种观点显然有失偏颇。

（6）拉芙菜丝（Lovelace）夫人[即Ada，英国著名诗人拜伦的女儿，为贝贝奇（Babage）编过程序]的异议。拉芙莱丝夫人的回忆录中曾对贝贝奇的分析机做过详尽的记述。她写道：“分析机没有任何意圈要想创作什么东西。它只能做我们知道该怎样去指挥它做的任何事。”还有另一种说法，即“机器永远也不能创新”。图灵对这个观点的态度是，如果认真地分析世上的每件事，谁能说某种“创新”就真的是“创新”，而不是接受教育，因循著名的普遍原则的结果？

（7）来自神经系统连续性的论证：“神经系统不像离散状态的机器，所以不能用一个离散状态系统去模仿神经系统的行为。”图灵指出，虽然从内部构造上，机器和神经系统是不同的，但如果严格遵循模蚁游戏的条件，反对者就不能从这个差别得到任何有利之处。

（8）来自行为规则的论证：“如果每一个人都有一套行动规则来制约他的生活，那么，人同机器就会相差无几了。但实际上不存在这种规则，因此，人不能成为机器。”图灵指出，这里的论证将“行为规则”和“行为规律”混为一谈。所谓“行为规则”是指人们需要服从的，并能够意识到的一类规则；而“行为规律”则是自然规律。

（9）来自超感官知觉的论证。这是图灵认为人同人创造的机器之间最终的区别。然而，当时可能被图灵认为超感官知觉存在的证据，后来都被证实是假的。我们相信将来也不会找到这样的证据。

最著名的反对意见，是索尔（Searle）于1980年提出的“中文屋子”问题。它实际上是上面提到的第（4）点反对意见的进一步发挥。该问题是这样描述的：

假设有一间密闭的屋子，除了通过一个通讯电缆与外界相连之外，没有任何其他方法能够与外界通讯。屋子里有一台通过了图灵测试的运行某种算法程序的机器，该机器能够接受输入的中文句子，井且能够通过执行程序生成输出的中文句子。这时，如果由一个完全不懂中文的人在屋子里，模仿上面的机器执行同样的算法程序，应该也能够接受输入的中文句子，并产生输出。这样，从屋子外面看，屋子里面的人应该是理解中文的，但是实际上完全不是这样。

索尔的问题的关键在于，仅仅成功执行算法本身并不意味着对所发生的事有丝毫理解，锁在他的中文屋子里的人不理解任何句子中的任何词！索尔的质疑引起了热烈的争论，在此没有篇幅细说了。

三、对语言学家和计算机科学家的挑战——计算机能否掌握谈话技巧

以考核言语智能为特点的图灵测试程序，其最基本的组成部分就是对话系统。对话系统的研究不是一个新课题，实验系统也很多。

按照对话系统的输入输出方式，可以分为基于语音的和基于文字的两种。基于文字的对话系统所涉及的技术包括：自然语言理解，机器翻译，对话分析，故事理解，自然语言生成等部分。而基于语音的对话系统在此基础上，还需要语音识别和语音生成技术。

按照对话系统的应用范围，可分为面向特定领域的和非面向特定领域的两种。按照对话系统的核心功能，还可以分为技术型对话系统和知识型对话系统两类。早期出现的系统以及目前流行的许多系统都是技术型系统。这类系统的特点是不拥有一个大型知识库。纯凭对话技术与用户周旋。本节主要介绍这类系统。

按照对话的生成原则，可以分为动态生成型、规划型和脚本型三类。动态生成型事先没有一定的计划，根据对话方输入的内容临时决定如何应答。规划型根据双方对话的进展以合作方式逐渐生成一个对话计划。脚本型以仙克（Schank）的概念依赖理论和脚本技术为依据，事先规划好对话的基本模式，再按某种状态转移图把用户的输入转换成输出。这种方法的功能受限，主要用于特定领域的对话。

按照所使用的自然语言处理技术，可以把对话系统分为语法型、语义型和语用型对话系统。语法型对话系统通常使用关键宇匹配以及句型匹配和置换技术。在使用这类技术时，对方输入的自然语言其实并没有被真正理解，而是被“望文生义”了，并且是“望关键字和句型生义”。

语义型系统力圈理解用户的输入并做出合理的反应。这类系统要求有一个比较完整的自然语言理解模块。但是因为自然语言理解是一个目前还不可能完全解决的难题，所以语义型系统的语义理解和处理功能肯定还是有限的。目前的观点认为，对话系统的研究是语用学的研究，但是在历史上许多系统是基于句法和语义来研究，因为语用学的研究被认为是太难了。

下面举一个例子来说明这三种方法在效呆上的区别。假设用户的输入是：

“你在20年前还不是一条狗。”

语法型系统会找出句型骨架“你**不是**狗”并判断这是正确命题，从而回答：“对，我在20年前还不是一条狗”。语义型系统会正确理解整个句子。由于20年前他确实不是一条狗，也会给出相似的回答。顶多加上一句：“我在现在也还不是一条狗。”只有语用型系统才会判断出这是一句侮辱话。

从历史上看，著名的对话系统有MlT的维岑宝穆（Joseph Weizenbaum）所写的程序ELIZA，这个矛盟芋用的是模式及关键宇匹配和置换的方法。设有如下句型模式：

（* you ** me）

及置换规则：

（what makes you think I ** you）

那么，当输入为“Yesterday you hurt me.”时，输出为“What makes you think I hurt you？”。

第二个例子是由科尔比（Colby）开发的PARRY程序。Parry也没有语法分析部分，只是通过大约6000条模式匹配规则来实现它的功能。它被伪装成是Veterans医院的精神病患者。

目前世界上比较有规模的图灵测试比赛，是柳步纳（Hugh Leobner）博士、美国国家自然科学基金和斯龙（Sloan）基金于1991年共同创办的柳步纳大赛。每年举行一次，在参赛的程序中挑选出最“人性化”的程序。此外，还设立了一个10万美元的大奖，奖励第一个通过非限制的图灵测试的程序。这个大赛也被称为侃大山程序比赛。

四、对知识工程和知识科学专家的挑战——能否建立强大的常识知识库

侃大山系统，或聊天系统的最大缺陷就是不以广泛的知识为基础。它们一般都有一些为了维持聊天所必需的起码知识，例如，你对它说某些称赞的话，它会对你说谢谢。你骂它一些难听的话，它也会对你不客气。但是你如果问它牛有几条腿，或天上有几个月亮，侃大山系统一般是回答不出来的。

易见这里所说的知识不是指专业知识，而是指常识。常识与专业知识有很大的不同，专业知识的重要性是人所共知的。它被广泛应用于各类专家系统和应用软件之中，而常识的重要性却往往被忽略。麦卡西（John McCarthy）曾指出，缺乏常识是当前专家系统的一大弱点。例如，许多医学专家系统不知道“死”这个概念，当然很难要求这样的专家系统起到和医生一样的作用。在人机对话中，常识又是考验一个对话者是否具有正常人的智力和行为的试金石。常识与专业知识的第二个区别是：人类积累的专业知识虽浩如烟海，但比起常识来，专业知识还只如小巫之见大巫。常识知识范围之广袤，是专业知识所不可比拟的。它们的第三个区别是：专业知识一般都是形式化了的，或比较便于形式化，而常识知识却极难形式化。

由于以上这些原因，在国际人工智能界，一直公认常识性知识的处理是人工智能的核心难题，有无常识是人和计算机的最根本区别，把常识问题能否解决和人工智能是否能够实现联系起来。人工智能的研究达到了什么水平？人工智能研究能否最终达到人们所希望的目标……所有这类问题的答案，无不和常识问题的研究进展密切有关。因此，很自然地，有无广泛的常识和能否充分、有效地运用这些常识是图灵测试能否成功的重要关键。

所以，一个强有力的常识知识库是成功实施图灵测试的必要支持。国外建立常识知识库的著名例子是雷纳（Lenat）的CYC系统。该系统原则上采用一阶谓词演算加框架树作知识表示，以框架树表示基本知识（客观世界中物理和精神对象的分类体系），以谓词演算作推理手段，并为每个问题领域建立一个微理论（公理体系〉。经过十余年努力，耗费数百人年的工作量，建立起一个拥有百万断言的知识库。国内的努力有中科院计算所曹存根的CNKI海量知识库，以及中科院数学所、清华大学和中山大学合作建立的《盘古》常识知识库。还在《盘古》的支持下作了少儿图灵测试的尝试。该知识库选定Agent作为常识单元，以Agent类属作为纵向继承体系，并按本体论原则组织各Agent的横向联系，通过各类本体建立联想式的网络体系。它的常识存储是分布式的，常识不仅体现在单个Agent的个体知识之中，而且体现在本体的组织结构之中。Agent之间的通信采用KQML。

从国内外的研究情况来看，开发大型常识库的主要问题是完备性（哪些知识是常识？如何收罗浩如烟海的常识？怎样用有限的库容装进无限的常识？）、一致性（常识有强烈的情景依赖性。如何限定常识的应用前提才能不发生矛盾？）和高效性（常识推理所需时间随常识的量而上升，如何使海量的常识与高效的推理相兼容？）

五、研究图灵测试的目的

在围绕图灵测试而展开的争论中，有许多问题的哲学意义大于其科学意义。人们可以从哲学角度或科学角度或技术角度去研究。我们不想否定任何一种角度。在科学和技术的意义上，图灵测试可以作为机器智能的试金石和研究机器智能的原动力。言语智能和常识处理是其中的两大研究方向。图灵测试的意义不限于基础研究，它有许多可能的应用。我们期待有更多的成果问世。

整理不易，欢迎打赏

陆汝铃，1935年生于上海，1959年7月毕业于德国耶拿大学数学系，1959年10月起在中国科学院数学研究所工作至今。1983年起任研究员。1999年当选为中国科学院院士。主要研究方向为人工智能、知识工程和基于知识的软件工程。共发表文章百余篇、专著7本。曾获科学大会奖、中国科学院科技进步一等奖两次、国家科技进步二等奖一次，以及第六届华罗庚数学奖一次。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。