世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议

传闻中 OpenAI 的 Q* 已经引得 AI 大佬轮番下场。AI2 研究科学家 Nathan Lambert 和英伟达高级科学家 Jim Fan 都激动地写下长文，猜测 Q * 和思维树、过程奖励模型、AlphaGo 有关。

人类离 AGI，已是临门一脚了？

OpenAI 的神秘 Q * 项目，已经引爆整个 AI 社区！

疑似接近 AGI，因为巨大计算资源能解决某些数学问题，让 Sam Altman 出局董事会的导火索，有毁灭人类风险…… 这些元素单拎出哪一个来，都足够炸裂。

无怪乎 Q * 项目曝出三天后，热度还在持续上升，已经引起了全网 AI 大佬的探讨。

AI2 研究科学家 Nathan 激动地写出一篇长文，猜测 Q 假说应该是关于思想树 + 过程奖励模型。而且，Q * 假说很可能和世界模型有关！

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

几小时后，英伟达高级科学家 Jim Fan 也发出长文分析，跟 Nathan 的看法不谋而合，略有不同的是，Jim Fan 的着重点是和 AlphaGo 的类比。

对于 Q*，Jim Fan 发出了如此赞叹：在我投身人工智能领域的十年中，我从来见过有这么多人对一个算法有如此多的想象！即使它只有一个名字，没有任何论文、数据或产品。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

相比之下，图灵三巨头 LeCun 则认为，提升大 LLM 可靠性的一个主要挑战是，利用规划策略取代自回归 token 预测。

几乎所有顶级实验室都在这方面进行研究，而 Q * 则很可能是 OpenAI 在规划领域的尝试。

以及，请忽略那些关于 Q * 的毫无根据的讨论。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

对此，Jim Fan 深表赞同：担心「通过 Q * 实现 AGI」是毫无根据的。

「AlphaGo 式搜索和 LLM 的结合，是解决数学和编码等特定领域的有效方法，同时还能提供基准真相的信号。但在正式探讨 AGI 之前，我们首先需要开发新的方法，将世界模型和具身智能体的能力整合进去。」

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

Q-Learning 忽然大火

两天前，外媒曝出，OpenAI 的神秘 Q * 项目，已现 AGI 雏形。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

突然间，一项来自 1992 年的技术 ——Q-learning，就成为了大家竞相追逐的焦点。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

简单来说，Q-learning 是一种无模型的强化学习算法，旨在学习特定状态下某个动作的价值。其最终目标是找到最佳策略，即在每个状态下采取最佳动作，以最大化随时间累积的奖励。

在人工智能领域，尤其是在强化学习中，Q-learning 代表了一种重要的方法论。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

很快，这个话题引发了各路网友的激烈讨论：

斯坦福博士 Silas Alberti 猜测，它很可能是基于 AlphaGo 式蒙特卡罗树搜索 token 轨迹。下一个合乎逻辑的步骤是以更有原则的方式搜索 token 树。这在编码和数学等环境中尤为合理。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

随后，更多人猜测，Q * 指的就是 A * 算法和 Q 学习的结合！

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

甚至有人发现，Q-Learning 竟然和 ChatGPT 成功秘诀之一的 RLHF，有着千丝万缕的联系！

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

随着几位 AI 大佬的下场，大家的观点，愈发不谋而合了。

AI 大佬千字长文分析

对于引得众人好奇无比的 Q * 假说，AI2 研究科学家 Nathan Lambert 写了如下一篇长文分析 ——《Q* 假说：思维树推理、过程奖励模型和增强合成数据》。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

文章地址：https://www.interconnects.ai/ p / q-star

Lambert 猜测，如果 Q*（Q-Star）是真的，那么它显然是 RL 文献中的两个核心主题的合成：Q 值和 A*（一种经典的图搜索算法）。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

A * 算法的一个例子

很多天来，坊间关于 Q 冒出了很多猜测，有一种观点认为，Q 指的是最优策略的值函数，不过在 Lambert 看来这不太可能，因为 OpenAI 已经几乎泄露了所有内容。

Lambert 将自己的猜测称为「锡帽理论」，即 Q 学习和 A * 搜索的模糊合并。

所以，正在搜索的是什么？Lambert 相信，OpenAI 应该是在通过思想树推理来搜索语言 / 推理步骤，来做一些强大的事情。

如果仅是如此，为何会引起如此大的震动和恐慌呢？

他觉得 Q * 被夸大的原因是，它将大语言模型的训练和使用与 Deep RL 的核心组件联系起来，而这些组件，成功实现了 AlphaGo 的功能 —— 自我博弈和前瞻性规划。

其中，自我博弈（Self-play）理论是指，智能体可以和跟自己版本略有不同的另一个智能体对战，来改善游戏玩法，因为它遇到的情况会越来越有挑战性。

在 LLM 领域，自我博弈理论看起来就像是 AI 反馈。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

前瞻性规划（Look-ahead planning），是指使用世界模型来推理未来，并产生更好的行动或输出。

这种理论基于模型预测控制（MPC）和蒙特卡洛树搜索（MCTS），前者通常用于连续状态，后者适用于离散动作和状态。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

https://www.researchgate.net/publication/320003615_MCTSUCT_in_solving_real-life_problems

Lambert 之所以做出这种推测，是基于 OpenAI 和其他公司最近发布的工作。这些工作，回答了这样两个问题 ——

1. 我们如何构建一个我们自己可以搜索的语言表示？

2. 在分隔和有意义的语言块（而不是整个语言块）上，我们怎样才能构建一个价值概念？

如果想明白了这两个问题，我们就该清楚，应该如何使用用于 RLHF 的 RL 方法 —— 我们用 RL 优化器来微调语言模型，并且通过模块化奖励，获得更高质量的生成（而不是像今天那样，完整的序列）。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

使用 LLM 进行模块化推理：思维树（ToT）提示

现在，让模型「深呼吸」和「一步步思考」之类的方法，正在扩展到利用并行计算和启发式进行推理的高级方法上。

思维树是一种提示语言模型创建推理路径树的方法，这些路径可能会、也可能不会收敛到正确答案。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

实现思维树的关键创新，就是推理步骤的分块，以及提示模型创建新的推理步骤。

思维树或许是第一个提高推理性能的「递归」提示技术，听起来非常接近人工智能安全所关注的递归自我改进模型。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

https://arxiv.org/abs/2305.10601

使用推理树，就可以应用不同的方法来对每个顶点或节点进行评分，或者对最终路径进行采样。

它可以基于最一致答案的最小长度，或者需要外部反馈的复杂事物，而这恰恰就把我们带到了 RLHF 的方向。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

用思维树玩 24 点游戏生成中的细粒度奖励标签：过程奖励模型（PRM）

迄今为止，大多数 RLHF，都是通过给模型的整个响应打分而完成的。

但对于具有 RL 背景的人，这种方法很令人失望，因为它限制了 RL 方法对文本的每个子组件的值建立联系的能力。

有人指出，在未来，这种多步骤优化将在多个对话回合的层面上进行，但由于需要有人类或一些提示源参与循环，整个过程仍然很牵强。

这可以很容易地扩展到自我博弈风格的对话上，但很难给出 LLM 一个目标，让它转化为持续改进的自我博弈动态。

毕竟，我们想用 LLM 做的大多数事情还是重复性任务，并不是像围棋那样，需要达到近乎无限的性能上限。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

不过，有一种 LLM 用例，可以自然地抽象为包含的文本块，那就是分步推理。而最好的例子，就是解决数学问题。

过去 6 个月内，过程奖励模型（PRM）一直是 RLHF 人员热烈探讨的话题。

关于 PRM 的论文很多，但很少有论文会提到，如何将它们与 RL 结合使用。

PRM 的核心思想，就是为每个推理步骤分配一个分数，而不是一个完整的信息。

OpenAI 的论文「Let's Verify Step by Step」中，就有这样一个例子 ——

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

在这个过程中，他们使用的反馈界面长这个样子，非常有启发性。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

这样，就可以通过对最大平均奖励或其他指标进行采样，而不是仅仅依靠一个分数，对推理问题的生成进行更精细的调整。

使用「N 最优采样」（Best-of-N sampling），即生成一系列次数，并使用奖励模型得分最高的一次，PRM 在推理任务中的表现，要优于标准 RM。

（注意，它正是 Llama 2 中「拒绝采样」Rejection Sampling 的表兄弟。）

而且迄今为止，大多数 PRM 仅展示了自己在推理时的巨大作用。但如果把它用于训练进行优化，就会发挥真正的威力。

而为了创建最丰富的优化设置，就需要能够生成用于评分和学习的多种推理路径。

这，就是思维树的用武之地。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

人气极高的数学模型 Wizard-LM-Math，就是使用 PRM 进行训练的：https://arxiv.org/ abs / 2308.09583所以，Q * 可能是什么？

Nathan Lambert 猜测，Q * 似乎正在使用 PRM，对 ToT 推理数据进行评分，然后再使用 Offline RL 进行优化。

这与现有的 RLHF 工具没有太大区别，它们用的是 DPO 或 ILQL 等离线算法，这些算法在训练期间不需要从 LLM 生成。

RL 算法看到的「轨迹」，就是推理步骤的序列，因此，我们得以用多步方式，而不是通过上下文，来执行 RLHF。

现有的传言显示，OpenAI 正在将离线 RL 用于 RLHF，这似乎不是一个很重大的飞跃。

它的复杂性在于要收集正确的提示，让模型生成出色的推理，而最重要的，就是准确地给数以万计的响应评分。

而传闻中的庞大计算资源，就是使用 AI 而非人类，来给每一步打分。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

的确，合成数据才是王道，使用树而非单一宽度路径（思维链），就可以为以后越来越多的选择，给出正确答案。

如果传言是真的，OpenAI 和其他模型的差距，无疑会很可怕。

毕竟，现在大多数科技公司，比如谷歌、Anthropic、Cohere 等，创建预训练数据集用的还是过程监督或类似 RLAIF 的方法，轻易就会耗费数千个 GPU 小时。

超大规模 AI 反馈的数据未来

根据外媒 The Information 的传言，Ilya Sutskever 的突破使 OpenAI 解决了数据荒难题，这样就有了足够的高质量数据来训练下一代新模型。

而这些数据，就是用计算机生成的数据，而非真实世界的数据。

另外，Ilya 多年研究的问题，就是如何让 GPT-4 等语言模型解决涉及推理的任务，如数学或科学问题。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

Nathan Lambert 表示，如果自己猜得没错，Q * 就是生成的合成推理数据。

通过类似剔除抽样（根据 RM 分数进行筛选）的方法，可以选出最优秀的样本。而通过离线 RL，生成的推理可以在模型中得到改进。

对于那些拥有优质大模型和大量算力资源的机构来说，这是一个良性循环。

结合 GPT-4 给大家的印象，数学、代码、推理，都应该是最从 Q * 技术受益的主题。

什么是最有价值的推理 token？

许多 AI 研究者心中永恒的问题是：究竟哪些应用值得在推理计算上花费更多成本？

毕竟，对于大多数任务（如阅读文章、总结邮件）来说，Q * 带来的提升可能不值一提。

但对于生成代码而言，使用最佳模型，显然是值得的。

Lambert 表示，自己脑子中有一种根深蒂固的直觉，来自于和周围人餐桌上的讨论 —— 使用 RLHF 对扩展推理进行训练，可以提高下游性能，而无需让模型一步一步思考。

如果 Q * 中实现了这一点，OpenAI 的模型，无疑会显示出重大的飞跃。

Jim Fan：Q * 可能的四大核心要素

Nathan 在我之前几个小时发布了一篇博客，并讨论了非常相似的想法：思想树 + 过程奖励模型。他的博客列出了更多的参考文献，而我更倾向于与 AlphaGo 的类比。

Jim Fan 表示，要理解搜索和学习结合的强大威力，我们需要先回到 2016 年，这个人工智能历史上的辉煌时刻。

在重新审视 AlphaGo 时，可以看到它包含了四个关键要素：

1. 策略神经网络（Policy NN，学习部分）：评估每种走法获胜的可能性，并挑选好的走法。

2. 价值神经网络（Value NN，学习部分）：用于评估棋局，从任意合理的布局中预测胜负。

3. 蒙特卡罗树搜索（MCTS，搜索部分）：利用策略神经网络模拟从当前位置出发的多种可能的走法，然后汇总这些模拟的结果来决定最有希望的走法。这是一个「慢思考」环节，与大语言模型（LLM）中的快速 token 采样形成鲜明对比。

4. 推动整个系统的真实信号：在围棋中，这个信号就像「谁获胜」这种二元标签一样简单，由一套固定的游戏规则所决定。你可以把它想象成一种能量源，持续地推动着学习的进程。

那么，这些组件是如何相互作用的呢？

AlphaGo 通过自我博弈（即与自己之前的版本对弈）来学习。

随着自我博弈的持续，策略神经网络和价值神经网络都在不断迭代中得到改善：随着策略在选择走法上变得更精准，价值神经网络也能获得更高质量的数据进行学习，进而为策略提供更有效的反馈。更强大的策略也有助于 MCTS 探索出更佳的策略。

这些最终构成了一个巧妙的「永动机」。通过这种方式，AlphaGo 能自我提升，最终在 2016 年以 4-1 的成绩击败了人类世界冠军李世石。仅仅通过模仿人类的数据，人工智能是无法达到超越人类的水平的。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

对于 Q * 来说，又会包含哪四个核心组件呢？

1. 策略神经网络（Policy NN）：这将是 OpenAI 内部最强大的 GPT，负责实现解决数学问题的思维过程。

2. 价值神经网络（Value NN）：这是另一个 GPT，用来评估每一个中间推理步骤的正确性。

OpenAI 在 2023 年 5 月发布了一篇名为「Let's Verify Step by Step」的论文，作者包括 Ilya Sutskever、John Schulman 和 Jan Leike 等知名大佬。虽然它不像 DALL-E 或 Whisper 那样知名，但却为我们提供了不少线索。

在论文中，作者提出了「过程监督奖励模型」（Process-supervised Reward Models，PRM），它为思维链中的每一步提供反馈。相对的是「结果监督奖励模型」（Outcome-supervised Reward Models，ORM），它只对最终的整体输出进行评估。

ORM 是 RLHF 的原始奖励模型，但它的粒度太粗，不适合对长响应中的各个部分进行适当的评估。换句话说，ORM 在功劳分配方面表现不佳。在强化学习文献中，我们将 ORM 称为「稀疏奖励」（仅在最后给予一次），而 PRM 则是「密集奖励」，能够更平滑地引导 LLM 朝我们期望的行为发展。

3. 搜索：不同于 AlphaGo 的离散状态和动作，LLM 运行在一个复杂得多的空间中（所有合理字符串）。因此，我们需要开发新的搜索方法。

在思维链（CoT）的基础上，研究界已经开发出了一些非线性变体：

- 思维树（Tree of Thought）：就是将思维链和树搜索结合在一起

- 思维图（Graph of Thought）：将思维链和图结合，就可以得到一个更为复杂的搜索运算符

4. 真实信号：（几种可能）

（a）每个数学问题都有一个已知答案，OpenAI 可能已经从现有的数学考试或竞赛中收集了大量的数据。

（b）ORM 本身可以作为一种真实信号，但这样可能会被利用，从而「失去维持学习所需的能量」。

（c）形式化验证系统，如 Lean 定理证明器，可以把数学问题转化为编程问题，并提供编译器反馈。

就像 AlphaGo 那样，策略 LLM 和价值 LLM 可以通过迭代相互促进进步，并在可能的情况下从人类专家的标注中学习。更优秀的策略 LLM 将帮助思维树搜索发现更好的策略，这反过来又能为下一轮迭代收集更优质的数据。

Demis Hassabis 之前提到过，DeepMind 的 Gemini 将采用「AlphaGo 式算法」来增强推理能力。即使 Q * 不是我们所想象的那样，谷歌也一定会用自己的算法迎头赶上。

Jim Fan 表示，以上只是关于推理的部分。目前并没有迹象表明 Q * 在写诗、讲笑话或角色扮演方面会更具创造性。本质上，提高创造力是人的事情，因此自然数据仍将胜过合成数据。

是时候解决最后一章了

而深度学习专家 Sebastian Raschka 对此表示 ——

如果你出于任何原因，不得不在这个周末学习 Q-learning，并且碰巧在你的书架上有一本「Machine Learning with PyTorch and Scikit-Learn」，那么，现在是时候解决最后一章了。

世界模型？OpenAI 神秘 Q * 引爆整个 AI 社区，全网大佬发文热议休闲区蓝鸢梦想 - Www.slyday.coM

参考资料：

https://www.interconnects.ai/p/q-star

https://twitter.com/DrJimFan/status/1728100123862004105

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

相关文章

蔚来手机 NIO Phone 负责人：SkyUI 下月中下旬将支持谷歌 GMS 框架

苏州上线 1 亿元新能源购车补贴，可领 4

相关文章

蔚来手机 NIO Phone 负责人：SkyUI 下月中下旬将支持谷歌 GMS 框架

苏州上线 1 亿元新能源购车补贴，可领 4

相关推荐

微信扫一扫