揭开openAI神秘智能项目Q*的神秘面纱

转译：在我投身人工智能领域的十年里，我从未见过有这么多人对一个算法如此富有想象。仅凭一个名字，没有任何论文、数据或产品。那么，让我们来揭开 Q* 幻想的神秘面纱，这可能是一段颇长的探索。

首先，要理解搜索与学习这两大 AI 技术的强大结合，我们得回溯到 2016 年，重新审视 AlphaGo 这一 AI 历史上的辉煌成就。它主要由四大要素构成：

1. 策略神经网络（Policy NN，学习部分）：它的任务是选择好的行动，通过估计每个行动带来胜利的可能性。

2. 价值神经网络（Value NN，学习部分）：这部分负责评估棋盘状况，并预测围棋中任何合法位置的胜负。

3. 蒙特卡洛树搜索（MCTS，搜索部分）：它代表着“Monte Carlo Tree Search”。这个过程利用策略神经网络模拟出从当前位置开始的多种可能的移动序列，然后综合这些模拟的结果来决定最有希望的行动。它是一个“慢思考”环节，与大语言模型（LLM）快速采样 Token 的方式形成对比。

4. 真实信号：这是推动整个系统运作的动力源泉。在围棋中，这个信号非常简单，就是一个二元标签“谁获胜”，由固定的游戏规则决定。可以将其视为维持学习进程的能量源泉。

那么，这些组件是如何相互协作的呢？

AlphaGo 通过自我对弈不断进步，即它与自己之前的版本进行对弈。在这个过程中，策略神经网络和价值神经网络通过迭代不断优化：随着策略在选择动作方面变得更加高效，价值神经网络从中获取更优质的数据进行学习，并反过来为策略提供更精准的反馈。更强的策略也帮助蒙特卡洛树搜索探索出更优的策略。

这样形成了一个巧妙的“永动机”。通过这种方式，AlphaGo 自我提升能力，并在 2016 年以 4-1 的成绩击败了人类世界冠军李世石。仅仅模仿人类的数据，AI 是无法达到超人类水平的。

现在，让我们来探讨 Q* 的构成。它的四大组件是什么？

1. 策略神经网络：这将是 OAI 最强大的内部大语言模型（GPT），负责实际执行解决数学问题的思维过程。

2. 价值神经网络：另一个 GPT，用于评估每个中间推理步骤的正确性概率。
OAI 在 2023 年 5 月发布了一篇名为《Let's Verify Step by Step》的论文，虽然它没有 DALL-E 或 Whisper 那么出名，但为我们提供了不少线索。

这篇论文提出了“过程监督奖励模型”（PRM），它对思考链中的每一步提供反馈。相比之下，“结果监督奖励模型”（ORM）只在最终对整体输出作出判断。

ORM 是强化学习从人类反馈（RLHF）中原始奖励模型的表达，但它太过粗略，无法适当评估长回应的各个子部分。换言之，ORM 不适合分配信用。在强化学习文献中，我们将 ORM 称为“稀疏奖励”（仅在最终给出），而 PRM 则是“密集奖励”，能够平滑地引导大语言模型朝我们期望的行为发展。

3. 搜索：与 AlphaGo 的离散状态和动作不同，大语言模型操作的是“所有合理字符串”的更复杂空间。因此，我们需要新的搜索方法。

在思考链（CoT）的基础上，研究社区已经发展了一些非线性 CoT：

- 思考树（Tree of Thought）：实际上是将 CoT 与树搜索结合起来：arxiv.org/abs/2305.10601

- 思考图（Graph of Thought）：正如你所猜测的。将树变成图，就能得到一个更复杂的搜索操作符：arxiv.org/abs/2308.09687

4. 真实信号：有几种可能性：

(a) 每个数学问题都伴随着一个已知答案。OAI 可能已经收集了大量来自现有数学考试或竞赛的语料。
(b) ORM 本身可以作为真实信号，但这样可能会被利用，从而“失去能量”维持学习。
(c) 形式验证系统，如 Lean 定理证明器，可以将数学问题转化为编码问题，提供编译器反馈：lean-lang.org

就像 AlphaGo 一样，策略大语言模型和价值大语言模型可以通过迭代相互促进改进，也可以在可能的情况下从人类专家的注释中学习。更优秀的策略大语言模型将帮助思考树搜索探索出更佳策略，反过来为下一轮迭代收集更好的数据。

Demis Hassabi曾提到 DeepMind 的 Gemini 将使用“AlphaGo 风格的算法”来加强推理能力。即便 Q* 不是我们想象中的那样，谷歌肯定会用自己的方式紧随其后。如果我能想到这些，他们肯定也能。

需要指出的是，我所描述的仅仅是关于推理的部分。并没有说 Q* 在写诗、讲笑话或角色扮演方面会更有创造力。提升创造力本质上是人类的事情，因此我相信自然数据仍会胜过合成数据。
#谈AI生成技术# #人工智能#

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。