1 新智元编译
来源:edge.org
译者:胡祥杰 刘小芹
【新智元导读】人工智能领域最高荣誉图灵奖的获得者,贝叶斯之父 Judea Pearl 日前接受 Edge 的采访。他谈到自己发明贝叶斯理论的过程,谈到了当下火热的深度学习的几个局限,也说到了自己的研究兴趣:希望开发拥有自由意志的机器人。他认为,决策理论也许是创造出人类智慧的一个方式。
点击阅读原文,可在爱奇艺观看2016世界人工智能大会全程回顾。以下是开场视频。
文章要点
20世纪80年代,当我们从基于规则的系统过渡到贝叶斯网络的时候,产生了一种新的思想。贝叶斯网络是一种概率推理系统。专家可以把自己对所在领域的专业知识输入其中。领域可以指疾病或者石油,这和专家系统的目标是一致的。
这一思路是对某个领域而不是应用过程建模。拿疾病的例子来说,你需要把疾病相关的局部概率知识和相关变量表现形式输入,如果你观察到一些证据,计算机将会采纳并在需要的时候激活这些概率知识,为你计算出新的证据所需要的修正概率。
Pearl 的贡献在于:1)通过概率演算的命令做事情;2)异步分布式计算的仿生结构。你从一个简单的模型集开始,比如神经网络,所有的工作都是自主的,而且只与它们的相邻的模块通信。
Judea Pearl 是 UCLA 计算机科学系的教授,他曾两次居于科学革命的中心:第一次是在 20 世纪 80 年代,他为人工智能引入了一套新的工具,叫贝叶斯网络。这种基于概率的机器推理模型使得机器能在复杂的、模糊的和不确定性的环境下工作。短短几年内,贝叶斯网络就完全替代了此前基于规则的人工智能方法。
第二次革命,鉴于贝叶斯网络在计算上的优势,Pearl 意识到简单的图模型和概率论(正如贝叶斯网络中的那样)也能用于因果关系的推理。这一发现为人工智能的发展奠定了另一个基础,但意义远非如此,这一能验证因果关系的、条理性的数学方法,几乎已经被所有科学和社会科学领域采用。
Judea Pearl 是图灵奖获得者,他发表的作品包括 Heuristics、Probabilistic Reasoning in Intelligent Systems 和 Causality: Models, Reasoning, and Inference。
20 世纪 60 年代初,很多都为计算机的未来投入巨大的资本。我进入一个设备主导的研究小组,它的目标是找到可以转变为计算机内存的新材料。那时磁芯存储器已经不流行。有些人研究光致变色现象,另一些人研究半导体,我研究的是超导性。实际上,我的学位论文也是跟超导存储器有关的。
为了使计算机的体积更小,速度更快,价格更低,每个人都感受到更换核心存储器的紧迫性。我记得贝尔实验室和IBM都很狂热地研究超导性问题,你可以想到的每个物理现象都被琢磨做成记忆装置。最终,半导体在这场角逐中胜出了。
Fairchild Camera 最先推出了半导体存储器。大家都笑他们说:“电源故障时就可能丢失存储,谁会冒这个险?”
因为半导体的缘故,我事实上被解雇了,不得不寻找另外的工作。幸运的是,我有一位朋友在UCLA,所以我给他打了一个电话,他告诉我有一个职位在招人。当时我甚至不知道那是什么职位。我料想我应该是去做教授,教我懂得的任何东西,而我懂的也就是计算机存储器。但其实没有太多教存储器的需要,所以我开始研究 AI。离开产业,进入学术界是我一生中做出的最好的决定,当然,除了和我的妻子结婚之外。
我于 1969 年加入UCLA。我很快对统计决策理论和决策分析感兴趣起来。我花了十年时间才进入我后来一直在做的事情,即信用决策自动化。当时研究这个的只有 Ron Howard 的团队,但他是在管理领域,而不是计算机科学。
上世纪 70 年代末 80 年代初,AI的研究都集中于各种应用的专家系统,从医学诊断到矿物勘探等等。当时的想法是,无论哪个领域的专业人士,或者称“专家”,都可以用计算机效仿。例如,通过与专业人士的访谈,你可以提取他的基本操作规则,将这些规则用于计算机。当计算机有了足够的规则,就可以有一个引擎来激活规则,并对所观察到的证据作出回应,例如告诉你在哪里可以挖到石油,或者接下来该进行什么医疗检测。
这种专家系统没有成功的原因有很多。主要障碍之一是采访专家所需时间太长。专家必须花两三个星期,告诉程序员他们如何进行日常工作、如何进行推理,等等。
从科学角度来说,基于规则的系统就是错误的。它们为专家建模,而不是对疾病本身建模。问题在于,程序员创建的规则没有正确的组合。当添加更多新的规则时,你必须撤消旧的规则。它是一个非常脆弱的系统。例如,如果医院出现程序上的变动,整个系统都必须得重写。而且我们这里谈的规则不是一两个,而是有数百个,包括专家(在这个例子中是医生)理解的所有互动方式;当专家输入100 条规则,可能就已经忘了前面几条。
我不喜欢基于规则的系统的另一个原因是它不具有科学透明性。我很懒。所以我需要了解我在做什么,我需要了解它的数学理据。基于规则的系统在数学上是不稳定的。数学可以优雅地告诉你:“如果你的过程没出错,就能保证得出确定的结果。”这种保证令人愉快,但基于规则的系统缺乏这种保证。
上世纪 80 年代初,我们从基于规则的系统转变为贝叶斯网络时,出现了一种新的思路。贝叶斯网络是一个概率推理系统。专家可以把自己对所在领域的专业知识输入其中,这和专家系统的目标是一致的。这一思路是对某个领域而不是应用过程建模。拿疾病的例子来说,你需要把疾病相关的局部概率知识和相关变量表现形式输入,如果你观察到一些证据,计算机将会采纳并在需要的时候激活这些概率知识,并为你计算出新的证据所需要的修正概率。
这就是证据引擎。它会被填入一个关于某个领域的概率描述中,当新的证据出现,系统会对相关的信息进行处理,然后会在所有的命题中为你提供你的修正后的信念(belief),通过修正来反映新的证据。
问题在于紧凑性和速度,这是两个主要的障碍。理论上,信念修正需要指数级的时间和指数级的存储能力,而这些难以提供。
知识构建者理解哪些事实是相关的,哪些是无关的,这是我们的优势。这给了我们一个稀疏的网络,而当你有一个稀疏的网络,就可以利用它的稀疏性,获得速度和紧凑性。贝叶斯网络是一种在告诉它初始信念后,快速计算出修正信念的方式。这显然是飞跃性的进步,因为它具有概率演算的所有有利属性,再加上基于规则的系统的程序优势。而且,它是透明的。
贝叶斯网络流行起来并且起作用的主要因素是“可重组性”。例如,假如任务是检修汽车发动机,当燃油泵被更换,你不必重写整个系统;你只需要修改负责给泵建模的子系统,其余都可以保持不变。因此,可重组性和透明性是贝叶斯网络的主要卖点。
我的贡献在于:1)通过概率演算的命令做事情;2)异步分布式计算的仿生结构。你从一个简单的模型集开始,比如神经网络,所有的工作都是自主的,而且只与它们的相邻的模块通信。当有新的证据进来,会激活这样几个模块,让它们像临近的模块发送信号,临近的模块再被激活,再传递信息给它们的邻居,如此继续——直到系统得到正确的信念。正确的信念是什么意思呢?就是假如你有足够的时间,根据概率演算的命令做正确的事情,就会计算出来的信念。
概率推理还处于胚胎时期时,我就抛弃了它,因为我对因果推理热心起来。当时很多人发现概率推理非常有用。有人告诉我,现在的一些很好的应用程序比如Google和Siri都应用了当时的理念或者算法,这让我很开心。我不知道他们实际上在做什么,部分原因是他们非常保密,部分是因为我转去了其他的方向。
我们现在的深度学习失去了透明性。我有跟那些说深度学习“效果很好”的用户交谈过,但他们不知道为什么效果好。一旦解开了它的束缚,它会有自己的动态性,会自己做修复,做优化,而且大多数情况下能得出正确的结果。但当它被束缚,你就没有线索知道它哪里出了错,哪里需要修复。这是让我担心的事情。
我们应该把目标置于一种不同的透明性。当出现问题时,用户应该能够检查系统并发现故障的位置;当工作正常时,系统应该能够向用户提供有意义的反馈以供改进。这些反馈应该与我们的经验有关,进而与人类对这种现象的看法有关。
有人认为透明性不是必须的。我们也不理解人体解剖学和人类神经结构,但我们的身体也好好地运行着,并不责备我们对身体的浅薄理解。同样的道理,这些人认为,为什么不解开深度学习系统的束缚,让它们创造智能,而我们不必理解它们是怎么做的。我个人是不喜欢这种不透明性,这也是我不花时间去研究深度学习的原因。深度学习自有它的作用。不透明的系统可以做一些非凡的工作,而我们的大脑就是很好的证明。
我试图理解这些系统的理论局限性。我们发现,例如,存在一些基础性的障碍,除非能打破这些障碍,否则我们无论怎么做都无法得到真正的人类智慧。这是我目前的兴趣所在。
我很钦佩一些人,像Michael Jordan和Geoffery Hinton。他们创造了用于物体识别和文本识别的非常好的视觉系统。这很让人感佩。但它能走多远?它有哪些理论限制,我们该怎么克服这些限制?我们现在对因果关系的研究强调需要克服的一些基本性限制。其中之一是自由意志,其余是反事实思维,以及因果性思考。理论上,你无法只从统计数据中得到关于因果关系的任何结论,更无法得到关于反事实的结论。
那是我们教小孩的方式,比如在手腕上拍一下,并大声说:“你不应该弄撒牛奶,”或“你应该去做作业。”“你应该做……”意味着什么呢?这意味着回到过去,再次经历一番并修改控制你的行为的软件吗?这是我们与小孩的沟通方式。如果我们失去了这种方式,我们也就失去了形成社交能力的机制。这是最近让我兴奋的话题。
关于控制论,你知道我是一个物理学家。我研究存储设备,因为我对控制论感兴趣,又开始研究决策理论。我们都确信我们某天将创造出人类智慧。问题是怎样创造。我认为决策理论是一种方式。所以我研读了Howard Raiffa(最近刚去世)的论文,Savage的贝叶斯统计,还有Ron Howard,Kahneman和Tversky的关于心理启发的文章。这是在70年代末。
Tversky和Kahneman当时是大人物,他们提出的启发式我认为应该模仿,不能被埋没了。对AI来说,我认为这样的启发式算法在解决问题中可以扮演重要的角色。回想起来,我写的第一本书就是关于启发式算法的,我还用下象棋的机器作为决策理论中很多观点的隐喻。
Tversky和Kahneman当时在研究概率和决策偏差。例如,母亲的眼睛是蓝色的条件下,女儿的眼睛也是蓝色的概率大——还是反过来,女儿有蓝眼睛的条件下,母亲也是蓝眼睛的概率大?多数人会说前者概率大——因为他们更喜欢考虑因果。但事实证明,两种情况概率是相同的,因为每代人中眼睛人数保持稳定。我用这个例子作为证据,说明人们更喜欢因果思考,而不考虑概率——他们偏向于容易获得的因果解释,即使概率论会指出不同。
我们的判断常常存在许多偏见,这是因为我们倾向于依赖因果关系。我们将世界看作是因果关系的集合,而不是统计关系或相关关系的集合。大多数时候我们可以绕行得到正确的判断,因为这些关系紧密相关。但有时会导致失误。蓝眼睛的故事就是一个这种失误的例子。
“相关并不意味着因果”这句话导致了许多悖论。例如,小孩的拇指的大小与他们的阅读能力高度相关。所以,如果你想长高,就要学会更好地阅读。这种矛盾的例子证明,相关并不等于因果关系。但是,人们由于渴望因果解释而常常落入这种陷阱。我们的大脑是一个因果处理器,而不是关联处理器。问题在于怎样调和两者之间的关系。我们怎样在大脑中组织因果关系?怎样操作和更新这种心理呈现?这引出了许多问题,哲学家,心理学家,计算机科学家和统计学家都还没法解决的问题。现在我们有了这些模式,所以很多人感到兴奋,要做的工作也很多。
哲学上关于自由意志的辩论是非常棒的,但我对此毫无兴趣。我希望开发一种机器,它们在行动起来就像拥有自由意志一样。机器也能想象我拥有自由意志,这样我们就能相互沟通,因为彼此都拥有自由意志。这是一个编程学的问题。非确定性主义和心灵-身体二重性哲学对这好无语影响。
我们应该回答的问题是我们到底有没有自由意志,不可否认的是,我是有感觉的,如果我想,我可以随意触摸我的鼻子,如果我不想,我就不摸。你也有这样的感官,感官是不可否认的,它确实存在。给我一个软件模型,它可以解释我什么时候拥有感觉, 什么时候没有。随后,问题就变成,为什么人类的进化会配备给我这种感觉。让我相信你有自由意志,也让你相信我有自由意志,这在计算上会有什么样的优势?
先不谈我们是否拥有自由意志。我们在这拥有一种计算的现象,它必须提供一些进化的功能,生存的功能和计算功能。如果现象不能提供计算上的优势,它就不会得到演进。这也是我在尝试理解的东西。它会给我们带来什么样的计算优势?确实,有一些实验证据表明,自由意志就是一种幻想。研究也发现,人们的心理是自己决定的,在人获得感觉之前他们就已经预先做了决定。但这也不会困扰我。我希望找到,在创造幻觉的过程中,都发生了哪些计算过程。我希望把这一过程加入机器中,这样机器人也许能更好的掌握足球。
编译来源:https://www.edge.org/conversation/judea_pearl-engines-of-evidence
联系客服