马斯克的X.AI想要建立的TruthGPT,是一种诚实的语言模型。这么做,直接将矛头对准ChatGPT。因为,此前,像ChatGPT这样的AI系统经常产生错误输出等经典幻觉案例,甚至支持某些政治信仰的报道。虽然ChatGPT可以让用户更多控制语言模型去解决问题,但「幻觉」仍然是OpenAI、谷歌以及未来马斯克的人工智能公司必须处理的核心问题。OpenAI联合创始人兼研究员John Schulman在他的演讲「RL和Truthfulness – Towards TruthGPT」中讨论了这些挑战以及如何应对这些挑战。
首先,对于简单的问题来说,语言模型大部分情况下能预测自己是否知道答案,还能表达不确定性。因此,Schulman表示,微调数据集的时候,必须得让模型学会怎么表达不确定、怎么应对前提被更改的情况,以及错误被承认的情况。要把这些情况的实例喂给模型,让它们学习。但是模型在时机方面还是欠练,也就是说,它们并不知道该何时执行这些操作。Schulman表示,这就是强化学习(RL)该出场的地方了。比如,基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)。应用RL,模型就可以学习「行为边界」,学会何时做出何种行为。而另一个难题,则是检索和引用来源的能力,例如通过WebGPT中所展示的能力,或者最近在ChatGPT的浏览器插件中所呈现的机制。问题在于,有了复制行为的能力和RLHF,为什么ChatGPT还会产生幻觉?原因在于问题本身的难易。虽然上述方法对于简短的问题和答案效果不错,但对于ChatGPT中常见的长格式设置就会出现其他问题了。一方面,完全错误的答案也不太可能,大部分情况都是错的和对的混在一起。在极端情况下,可能就是100行代码中的一个错误而已。在其他情况下,这些信息在传统意义上并不能说是错的,而是有误导性的。因此,在像ChatGPT这样的系统中,人们很难根据信息量或者正确性来衡量输出的质量。但这种衡量对于旨在训练复杂行为边界的RL算法却非常重要。目前,OpenAI依托于RLHF的基于排名的奖励模型,该模型能够预测它认为两个答案中哪个更好,但不会给出有效的信号来明确哪个答案好了多少、信息量大了多少或正确了多少。Schulman表示,它缺乏向模型提供反馈以学习精细行为边界的能力。而这种精细的行为边界,才是有可能解决幻觉的道路。此外,此过程还会因为RLHF标记过程中的人为出错而变得更加复杂。因此,虽然Schulman将RL视作减少幻觉的重要方式之一,但他认为仍然存在许多还没解决的问题。除了前面提到的奖励模型究竟需要什么样子才能引导正确的行为之外,RLHF目前仅依赖于人类的判准。这可能会使知识的生成变得更加困难。因为对未来的预测有时会导致不那么令人信服的表述。然而,Schulman认为,知识的生成是语言模型的下一个重要步骤,同时,他认为对未来的预测和给出推理规则等问题的理论构建,是亟待解决的下一类开放性问题。Schulman说,一种可能的解决方案是,用其他AI模型来训练语言模型。OpenAI也认为,这种方法对于AI对齐来说,很有意义。