导读
漫长的30年间,数度从主流方向的超然出走,是Bengio的制胜秘诀。这种不盲从主流的风格体现在他研究生涯的方方面面。
90年代末期,神经网络被打入冷宫,Bengio的论文多次遭拒,连学生们也开始担心,和他一起研究神经网络会导致毕业后找不到工作。
“那场有关神经网络的文化沙漠可能'劝退’了很多研究者,但我有点固执,坚信我们应该坚持下去。”而时过境迁,如今神经网络早已成为主流,审稿人的看法也发生了翻天覆地的变化。
此时,Bengio却已经开始研究新方向,寻找新问题。“我认为不能把所有鸡蛋放在一个篮子里,我们应该探索更多不同的方法。在过去的七年里,我一直在努力探索当前神经网络方法的局限性,这样才能让未来的人工智能具备当前缺乏的能力。”
谈及现如今Scaling Law催生的模型性能大爆发,Bengio依然保持着客观审慎的思考,他认为“Scaling Law并不是理论定律,只是基于经验性观察总结的规律。为了解决大模型目前存在的问题,我们需要探索Scaling Law之外的新方法。”
在OpenAI等巨头纷纷为AGI的到来摩拳擦掌之时,Bengio更关心的是如何应对AI对人类的潜在风险。正如奥本海默所带来的核末日一样,AI引发的人类安全危机甚至比核武器更为沉重。Bengio坦言,假如有机会回到年轻时,会提醒当时的自己注意AI风险,而即便覆水难收,当下最重要的是明确,“我能做什么,我们每个人能为一个更好的世界做什么。”
要点速览
智源专访栏目意在通过展现技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第15期(下集在文章结尾)
本期邀请到世界级人工智能专家、图灵奖得主Yoshua Bengio,Bengio现任蒙特利尔学习算法研究所(Mila)创始人和科学主任、蒙特利尔大学教授。他不盲从主流的研究风格来源于父母早年侧重于自由探索和批判思维的家庭教育,近年来Bengio把研究重心转向了AI for science、系统2和AI安全。
AI启蒙之路:阿西莫夫科幻小说、可编程计算器、神经网络的新大陆
您第一次接触到计算机科学是什么时候?如何发现自己的兴趣并走上这条道路的?
我开始接触到这个领域时只有十几岁。在那个年代,可编程计算器非常流行,也吸引着我。后来,我逐渐对计算机产生了兴趣,学会了针对计算器上的汇编语言。
后来,我和弟弟(编者注:同哥哥一样,Samy Bengio也在深度学习方面颇有建树,他是谷歌杰出科学家,也是Google Brain首批员工之一。)一起攒钱买了我们的第一台电脑。当时还没有成熟的个人电脑软件产业,所以我们学习了一些简单的编程语言,自行编写软件程序让电脑执行,这些经历对我们来说非常宝贵。没有老师教我们,所以我们只能通过阅读和实践自学成才。
这些早期经历让我对计算机科学产生了浓厚的兴趣,最终在上大学时选择它作为我的专业。同时,我也对物理学和数学感兴趣,所以在研究生期间我也选修了一些偏理论性的研究方向。
您是如何进入神经网络这个领域的?
研究生入学之初,我读了几篇关于神经网络的论文。我觉得这个研究领域非常有趣,就像发现了一片新大陆一样兴奋,我想阅读更多神经网络相关的论文。
我读了几篇Hopfield和Hinton在1982年发表的论文,接着是1985年关于反向传播(back propagation)的论文。1986年,我读了Hinton和其他几位作者共同撰写的名为《并行分布式处理》(Parallel Distributed Processing)的一本书。那是神经网络研究的早期阶段,这些学者称自己为连接主义者(connectionist)。这些论文深刻地影响了我的研究视野、对神经网络的理解以及研究方向。
有没有某一事件或某个时刻,给了你计算机将改变世界的灵感?
十几岁的时候,我读了大量科幻小说,比如阿西莫夫的作品。早在上世纪40年代,人们已经开始思考变得更聪明的人工智能和计算机将会怎样。包括阿兰·图灵在内的许多计算机科学先驱都预见了,总有一天我们会制造出足够聪明的机器。这到底是创造伟大还是暗藏危机?早在70年前计算机科学家们已经在思考这些问题了。
你的父母来自巴黎,一家人从法国搬到了加拿大。童年经历是如何影响你后来的生活经历和工作风格的?
我们家没有很严格的家规,无论是上学还是写作业,父母总是会关心我和弟弟想做什么。我父亲常说,父母应该从孩子身上学习,而不是孩子对父母耳提面命。
我的父母赋予了我很多自由和批判性思维。这对于科学家来讲至关重要,科学家必须跳出思维的条条框框。你必须相信自己解决问题的能力、承担风险、表达出你不确定的想法。这种自由的氛围对我非常有帮助。在不同国家之间搬迁实际上也是了解观点多样性、文化和语言多样性的良好经历。
在科学领域我们需要格外谨慎,因为我们不能确保自己掌握的就是真理。我们必须允许自己犯错误,考虑与自己相悖的观点,因为我们很可能是错的。因此,文化多样性对于研究者来说是一堂很好的人生课。
大模型前身,注意力机制,图灵奖
您在过去几十年取得了许多重要的成就,您认为其中最重要、最有价值的工作有哪些?
2014年,我们团队受到人类认知机制的启发,在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次将注意力机制应用于自然语言处理领域,大大提升了机器翻译的性能。这篇发表在 ICLR 2015 上的论文引起了行业热议,启发了后续的一系列语言大模型研究。
就在论文发表的一年后,谷歌在2016年将这项技术应用于谷歌翻译中,它的性能突飞猛进,表现非常出色,这种大规模应用是学术界无法做到的,我们也看到了规模效应的影响。谷歌翻译在2016年取得的进步,得益于注意力机制带来的革命性改进。
到了2017年,Transformer正式提出,其基本架构是多层注意力机制的层层叠加,这项技术催生了现代大语言模型现代架构。
回顾过去几十年的工作,这些成果是比较突出的亮点,被图灵奖提名委员会认可,也是他们决定将2018年图灵奖授予我和Geoffrey Hinton、Yann LeCun的主要依据。当然在此之外,我还完成了许多其它的工作。
在注意力机制、Transformer等相关技术出现之前,神经网络经历了一场寒冬,在所有人都对神经网络失去信心的时候,是什么让您始终坚持这个研究方向?
2019年第7届海德堡桂冠论坛(Heidelberg Laureate Forum, HLF)中,Yoshua Bengio发表题为“面向人工智能的深度学习(Deep Learning for AI)”的演讲,演讲中围绕维数灾难(Curse of Dimensionality)问题展开探讨。
不能把大模型的未来全押注在 Scaling Law之上,
AGI 在现阶段当然不存在,但在未来我们很可能会实现 AGI,只是目前还没有实现罢了。这是两个不同的问题,Yann似乎在试图回避关于未来AGI是否会存在的问题。但当我问他时,他也公开表示,他认同我们正在朝着构建AGI的方向前进。
Yann不喜欢AGI这个词,他更喜欢称之为人类水平的AI。但重点是我们在不断取得进步,因此有理由相信,未来一定会创造出在许多任务上和人类能力相当的机器。现在在一些公开场合,Yann也认同在未来几年或几十年可能实现AGI。但他始终强调我们还没有发展到那个阶段,所以不愿意讨论风险问题。
Ilya Sutskever在去年的访谈中曾表示OpenAI在制造AGI,你认为这是在虚张声势吗?
不,我不认为这是虚张声势。Ilya真的打算实现这个目标,而且他在最近几年取得了很多进展。我们应该认真看待他的计划。或许现在Ilya不知道能否实现AGI,但重点是,这是他的目标,并且许多其他公司也有相同的目标。所以我认为这是一个认真的目标,我们不应该轻易地认为这绝不可能实现,因为我们也不知道未来会如何发展。
现阶段研究重点:
近期,我的研究重点是人工智能安全(AI safety)。换言之,我们正在探索如何构建不会伤害人类的AI系统。
事实上,很多论文或论据表明当前的技术可能被用于构建一些可能产生伤害人类动机的 AI 系统。
我们需要构建更安全的AI系统,让它与人类价值观、意图、法律、规范和道德保持一致,我们期待AI的行为符合人类的道德准则。
如果能回到20、30岁,
1945年原子弹在日本广岛和长崎爆炸后,原子弹之父奥本海默成为美国的“普罗米修斯”,他本人陷入深彻的反思与懊悔,对核武器滥用带来的灾难性后果深感忧虑。
在AI治理方面,我们需要达成类似的国际条约,在国际层面达成共识。各国不应毫无约束地自行研发人工智能技术,尤其不能将AI用于军事目的,而是应该把所有资源集中起来构建安全的AI,并确保它不会被用于对抗人类。
在此基础上,我们可以共享AI带来的好处。AI在医疗、环境、贫困问题等方面都可以带来积极的影响,它也有潜力推动科学领域的变革。因此,我们需要在享受AI带来的进步和避免AI带来的灾难之间寻求平衡。
在AI安全上,我们不能各自为政,必须携手同行。
Geoffrey Hinton在AI安全方面与您持有相同的观点,他甚至曾表示对自己的毕生工作感到后悔,那么我们应该以悲观还是乐观的心态看待AI的发展?面对AI带来的风险和威胁,你会不会对自己的工作感到后悔或遗憾呢?
我想,我应该在过去的工作中更加重视AI可能带来的风险。甚至在10年前,我就读过听过人们谈论AI的风险,但我并没有给予足够的重视。这是我曾犯下的错误。
过去的就让他过去吧,我们无法改变。总体而言,我是一个乐观主义者,但我也看到了AI可能带来的巨大风险。乐观还是悲观,其实无关紧要。重要的问题是,我能做什么,我们每个人能为一个更好的世界做什么。
每个公民都可以有所作为。因为如果更多的公民意识到了AI可能带来的风险,政府就会更加重视。在每个国家、每个政体中,政府都希望尽力获得更多民意支持。
我会尽力而为。幸运的是,我得到了很多认可和支持,并且能够在AI安全领域继续开展研究。因此,我正在将更多精力转移到这方面,尽我所能减少AI带来的风险。
经验丰富的人通常能发挥重要作用,但他们也可能因为固执己见而作出错误判断。作为科学家,你可以选择倾听人们的意见,然后根据自己的经验、知识来采纳这些意见;你也可以不予理睬,等待时间去证明事情的真相。
我们不必全然相信经验丰富之人给出的建议,但也不应该完全忽视它。我们可以考虑多种可能性并提出假设,然后通过实验研究来验证它们。这就是科学研究的工作方式。
所以你会提醒年轻的自己注意AI安全的风险?
是的,我会。
您在培养人工智能人才方面有非常丰富的经验。在教学方面,这些年来您积累了哪些宝贵的实践经验?
这是一个有趣的问题。如果你是一个学生,有个教授在课堂上滔滔不绝了两三个小时,你的大脑会停止思考,你会跟不上老师讲的内容。如果只是让学生被动地听课和接收知识,很难刺激他们主动思考。反之,如果有一种教学方式让学生积极参与其中,迫使他们集中注意力倾听其他人的想法,学习效果会更好。
从我的教学经验来看,翻转课堂(flipped class)行之有效。我会给学生们布置作业,让他们在课前学习材料,在课堂上随机选择一些学生针对材料进行课堂展示,其他学生需要提出问题或回答问题。这样他们就帮我把活儿干了(笑)。
我的角色是确保学生们给出的答案是正确的,确保学生们真正理解了材料。而且过程里,大量任务由学生自主完成,这样也保证了课堂活跃度。
此外,当学生们在家里看视频或论文等材料自学,可以按照自己的节奏来,累了就喝杯茶或咖啡,过会儿再来学。但教室里听讲,即使学生们无法集中精力课程也会继续,就会因此错过老师们讲的内容。所以我认为传统的讲座并不是一种高效的教学方式。
相比之下,小组讨论是一种更好的教学方法。比如我和我的三五个研究生,可能还有其他教授一起开展小组讨论,更有助于我们互相学习和头脑风暴。
在教学过程中,我们必须摆脱“老师无所不知而学生一无所知,他们只需要吸收老师所给的学习材料”的传统观念。教学是一个对话的过程,需要由老师和学生共同参与。
Bengio在课堂教学中
我有几个建议想分享给年轻学者。
首先,对于研究者而言,善于提问是很重要的技能。如果你想从事学术研究,你必须对你所研究和讨论的主题有深入的理解。有时我们读到一些文章,我们会理所当然地接受作者的观点,而不会去思考“它是如何运作的?为什么有效?”这类问题。
我们不应该未经思考而轻易接受他人的观点,而是应该试图证明为什么这个结论是正确的,为什么作者会这样写,他们是否有证据可以证明自己得出的结论。如果没有证据,我们应该持保留态度。也许有的人太自信了,比如Yann,他会非常笃定地讲一些事。听者会觉得,啊他一定是对的。人的直觉可能是错误的,你需要有说服力的论据、有力的证据或实验结果来证明自己的观点。研究的过程就是不断提出问题。
下一个建议是,保持谦虚。你必须接受自己可能会犯错。在我的职业生涯中,关于哪些AI方法论或基础理论会成功,我的想法改变了很多次,但这没关系。
事实上,正是勇于承认错误才展现出你的聪明和谦逊,并且表明你充分认识到自身知识的局限性。科学研究只有在你愿意改变想法、认真倾听并考虑他人观点时才能取得进展。也许其他人的观点与你相悖,但他们可能是对的。
很多时候,没有人知道正确答案,我们需要通过做实验或其他方法来寻找答案。如果无法确定,就不要笃信某一种观点或结论。从事科学研究的人要学会接受现实可能存在多种解释,所谓的认知谦逊(epistemic humility)正是如此。
还有很多问题,我们无法从现存理论中找到答案。因此,研究者必须培养自己的直觉。培养直觉的有效方法之一是亲身参与实践。
亲自动手去做研究或工程项目,尝试理解你正在运行的代码,甚至通过重新编写代码来帮助自己加深对程序逻辑和运行机制的理解,在大量的实践或失败中积累经验,从而建立更强的直觉,这是非常重要的。
最后一个建议是多阅读。在任何知识领域中,每个人都像是一个微型大脑,通过阅读可以了解他人的研究成果,研究思路和前沿进展,从而持续积累关于这个领域的知识。这是一种日常训练,每天都要做。
阅读论文很重要。面对领域中不断新增的海量论文,你可能会觉得手足无措。因此,你在选择论文的时候必须有所取舍,跟进最重要的研究进展。
你现在每天仍然会阅读多少篇论文?
现在我必须非常高效地读论文,因为要读的内容太多了,很多论文我甚至都不会完整地阅读,只是大致浏览一下,看一下摘要和图表。如果我对某篇文章的摘要很感兴趣,就会更深入地阅读这篇文章的内容。所以我很难准确计算每天阅读论文的数量,但我确实每天都在坚持读论文。
不仅是论文,现在还有很多方式可以了解前沿研究进展,比如通过博客文章等。我认为更重要的是阅读的时间,而不是数量。(如果非要说时间的话)三小时左右。
联系客服