融合RL与LLM思想+·+探寻世界模型迈向AGI「上中下合集」by+吕明+v5 1

融合RL与LLM思想·探寻世界模型迈向AGI「上中下
合集」
目录
• 「上篇」
• AlphaDev的尝试
• Algorithm Distillation的启迪
• 基于RL的AlphaGO/Zero再探究 → “LLM×RL”
• 回归第一性原理
• LLM洞察&阐释：
• 「中篇」
• 「系统一 · 快思考与系统二 · 慢思考」的本质&阐释：
• RL与LLM融合的本质&阐释：
• 世界模型的内涵：
• 「中篇」的回顾与总结：
• 「下篇」
• 「上/中篇」跟大伙盘道了那么多，不忘初心，其目的是什么？
• 精神的助产士 · 苏格拉底式问答法
• 华人数学家陶哲轩在天空之城的探索模式
• 欧几里德的助手 · AI4S之AlphaGeometry
• "KAN" AI 4 Science?
• 为什么说这次AlphaFold3再次意义非凡？
• Q*猜想
• P vs. NP 的五十年
• 全篇完结·心得体会
本文原创作者：吕明
Wechat：lvming6755
E-Mail：173981382@qq.com
知乎：吕明 - 知乎
本文知乎链接：
融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索
「RL×LLM×WM>AI4S>AGI>ASI」
融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」
微信公众号&链接：「塔罗烩」
融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索
「RL×LLM×WM>AI4S>AGI>ASI」
融合RL与LLM思想，探寻世界模型以迈向AGI「中·下篇」
阅读提示：
本篇文章于2023年底尝试挖掘并探寻以ChatGPT为代表的LLMs和以AlphaGO/AlphaZero及当下AlphaDev为代表
的Alpha系列之间的AR和RL思想的背后底层理论及形式上的统一，同时尝试基于去年OpenAI暴露出的project Q*
可能的关于推理过程学习再到系统①(快)思考与系统②(慢)思考的形式化统一的延展性思考，以展望当下面向未
来AGI路径可行性...正如前几日AI一姐李飞飞教授所说，人工智能即将迎来它的「牛顿时刻」...
本篇文章拟分为「上篇」「中篇」「下篇」，因为文章内容整体比较冗长，也许会给大家造成一定的阅读困扰，
但仍希望大家能够阅读下去，内容上尽量采用简单通俗的表述，其中文章囊括了诸如强化学习「RL」、自回归
「AR」大语言模型「 LLMs」等技术领域深刻内涵思考，穿插关联了丰富的计算机科学/数学/物理学/哲学/心理
学等领域跨学科内容，回顾了人工智能近现代发展历史，并在部分章节中以作者视角回顾总结过去一年中大模型
给自己带来的思想冲击...大家如有疑问困惑和不同看法也非常欢迎评论指正或直接如流探讨，感谢！
「上篇」
AlphaDev的尝试
探索的开始，想以一个去年(23年)年中颇具戏剧性的两个事件为开端...
故事的背景和起因是这样的，自AlphaGO为AI制造的涟漪还在、ChatGPT为AIGC掀起了更大的浪潮之后，以
及基于LLM之上Agent模式初露头角后，人们将目光更多的关注在如何使得AI在达到AGI之后迈向ASI，而ASI的其
中一条印证路径就是超越人类实现AI4S的突破...直到我们在去年底OpenAI内部的一次乌龙事件，似乎暴露出了一
些隐藏在其背后的野心和端倪..
回望23年中的6月7日，曾经在最复杂的智力博弈领域风光无限的DeepMind，继AlphaGO神来之笔后，在LLM
风靡世界的冷静期(2023.2H，Gemini和SORA发布前夕)，又将强化学习带向了巅峰，又双叒叕带着重磅成果登上
Nature了..在计算机领域最基础的两个算法上实现了人类未发现的新突破：针对基础排序算法和哈希算法实现了汇
编指令层的算法突破，分别提升70%及30%效率。而正是因为这一最新成果 · AlphaDev，使得十年都没有更新的
LLVM标准C++库都更新了，并且数十亿人将会受益。
这个AI名叫AlphaDev，属于Alpha家族“新贵”，并且基于AlphaZero打造。DeepMind的研究员给它设计了一种
单人“组装”游戏，如下图所示：

只要能够搜索并选择出合适的指令（下图A流程），正确且快速地排好数据（下图B流程），就能获得奖励。
其中，AlphaDev拥有两个核心组件：学习算法和表示函数。
学习算法主要是在强大的AlphaZero上扩展的，它可以结合DRL和随机搜索优化算法来进行巨量的指令搜索；
主要的表示函数则基于Transformer，它能够抓住汇编程序的底层结构，并表示成特殊的序列。随着AlphaDev不断
地打怪升级（在此过程中，研究员还会限制它能执行的步数，以及待排序列的长度），最终，AlphaDev发现了一
种全新排序算法：
Think：这里可以关联到一篇关于XOT思想论文中的MCTS DRL路径探寻的模式思考，其中另一篇关于AOT思想
论文中也有部分思想的重合，论文链接如下，另外读者也可自行访问COT、TOT、GOT、SOT等其它相关论
文。
EVERYTHING OF THOUGHTS : DEFYING THE LAW OF PENROSE TRIANGLE FOR THOUGHT

GENERATION：https://arxiv.org/abs/2311.04254
Algorithm of Thoughts: Enhancing Exploration of Ideasin Large Language

Models：https://arxiv.org/pdf/2308.10379.pdf
具体的算法创新结果如下图所示：

如图所示：左边是利用了min(A,B,C)的原始sort3实现，右边是通过“AlphaDev Swap Move”，只需要
min(A,B)的实现。能够发现可以省掉一步指令，还只需要算出A和B的最小值

如图所示，在对8个元素进行排序的算法中，AlphaDev也同样利用“AlphaDev Copy Move”，用max (B,
min (A, C))替换了原始实现中更为复杂的max (B, min
作者表示，这种新颖的方法让人想起当年AlphaGo的“第 37 步”——一种违反直觉的下法却直接击败传奇围棋
选手李世石，让观众全都震惊不已，而在发现更快的排序算法后，作者也用AlphaDev试了试哈希算法，以此证明
其通用性，结果也没有让人失望，AlphaDev在9-16字节的长度范围内也实现了30%的速度提升。如果序列较短，
相比人类基准排序算法，它能将速度提高70%；如果序列长度超过25000个元素，则提高1.7%。
同时作者认为两种新算法的实现显示AlphaDev具有强大的发现原始解决方案的能力，并且将使我们进一步思
考计算机领域基础形式化算法的改进方式。
不过在学术和产业界，针对此算法也有着诸多不同的声音与思考：
它计算的是算法延迟，而非传统意义上的时间复杂度。如果真算时间复杂度，数据可能不好看。
它改进的并不是排序本身，而是在现代CPU上做新的排序（特别是短序列）。这种操作其实不算罕见，比如
FFTW、ATLAS这些库就是这么做的。
同意，他们只是为特定CPU找到了更快的机器优化，并不算发现新的排序算法，方法本身很酷，但还不算开创性
研究...
接下来，围绕着AlphaDev等争论还未形成气候时，开头所讲的戏剧性的一幕发生了...DeepMind新AI登上
Nature才一天，GPT-4就来打擂台了！具体GPT-4是通过两段提示内容，GPT-4就给出了和AlphaDev如出一辙的
排序算法优化方法。
带来这个新发现的是一位来自威斯康星大学麦迪逊分校的副教授，名叫Dimitris Papailiopoulos。其两段提示
内容分别为：
第一条：这有一段排序算法，我觉得它还能进一步优化。你能不能在下面几行，用*注明哪些指令可以删除或者
改进？如果不需要修改，就什么都不动。一步一步解释原因，然后回去验证它是对的。同时还强调说，如果有什
么新发现，先不要做改变，只是“看着”就好，写出来一些书面改进建议。

基于上述提示内容，GPT-4对代码做出了详细解释：

第二条：继续。如果你有很大的把握，按照上面的提示去做。Temperatur=0（让生成结果确定且一致），尽量
简要避免混淆。
然后GPT-4给出了详细的步骤，最后总结说：
我们发现指令“mov S P”多余可以去掉，其他指令都是必需的。但在删除之后，应将P替换成S。
对比DeepMind新工作AlphaDev在处理同样问题上的思路，不能说毫无关系，只能说一模一样..
与此同时，跟昨日一样，在学术与互联网界，针对GPT-4这另一种推理方法，同样有着诸多争论与观点：
有人感慨说，Dimitris教授的操作进一步验证，只要有耐心、懂提示工程，GPT-4能做到的事还有很多。
也有人提出质疑，表示GPT-4能这么做会不会是因为它的训练数据中包含了一些排序算法的优化方法？
不过话说回来，之所以这件事能够引起这么大的关注和讨论，很大一部分原因是AlphaDev登上Nature存在争
议。
不少人觉得这也不是什么开创性的研究，归咎于DeepMind的夸大其词。
当然也有人认为，AlphaDev本身的创新点更在于，它是利用强化学习来发现新算法的。
之所以会在两天内出现戏剧性一幕以及诸多争论和思考，一方面说明大家对AGI到ASI的期待与关注，另一方面，
也体现出当前AI不管在以chatGPT为代表的序列自回归预训练LLM，还是之前以AlphaGO/AlphaZero及当下
AlphaDev为代表的RL之中都会存在底层理论的缺失和形式上的统一。
Algorithm Distillation的启迪
在尝试进行针对上述以GPT4为代表的LLM序列预测框架及以Alpha家族包括GO/Zero/Dev及其它为代表的
DRL框架两者间的深度剖解之前，在这里有必要多补充一些有关RL与LLM思想与方法融合的发展历史，以便我们
能从更多角度广泛的了解RL与LLM，首先我们将目光聚焦在DeepMind于2022年秋天发布的一篇关于AD（算法蒸
馏）的IN-CONTEXT RL方法，先拿他来拿拿味儿:)
2022年随着ChatGPT的火热，Transformer可谓是最强大的神经网络架构，大型预训练Transformer模型的泛
化能力已经在多个领域得到验证，并且经过预训练的Transformer模型可以将prompt作为条件或上下文学习（in-
context learning）适应不同的下游任务。
但是这里不得不要问一个看似更加深刻的问题：为什么当年同样大火的AlphaGO所采用的RL及后续RL的其它
诸多变种中很少有采用预训练模型，又或者以ChatGPT为代表的LLM范式为何在其中看不到更多RL的影子？
（ChatGPT在在aligning过程中虽然采用了一种RL的思想方法，即RLHF，但对于整个GPT架构来说亦非核心框架
且没有起到主导作用，如对大量知识的压缩或学习主要还是位于pre-training阶段，RLHF仅仅在align的环境闭环中
实现了R）
Think：这里可以思考一下：①LLM是否有必要次采用RL思想和方法吗？即便是采用了RL，会与之前的序列预测
任务、训练模式、场景有何差异或特殊之处？RL的意义是？②序列预测模型是否可以运用RL的数据或思想，即
在LLM模型推理过程中继承了某种类RL的推理过程？在后续的部分内容介绍中可能会对上述两个问题进行一定
的阐释。
因此，从去年开始，已经有相关工作证明，通过将离线强化学习（offline RL）视为一个序列预测问题，那么
模型就可以从离线数据中学习策略。但目前的方法要么是从不包含学习的数据中学习策略（如通过蒸馏固定的专
家策略），要么是从包含学习的数据（如当前火热的Agent的过程历史）中学习，但由于其所收集的数据样本量、
context长度、数据质量及任务&环境反馈模型等问题，以至于无法捕捉到策略提升。（PRM&Fine-Grained是基于
什么思想？->这里暂且先栓个扣子）
尽管目前已经有很多成功的模型展示了Transformer如何在上下文中学习，但Transformer还没有被证明可以在
上下文中强化学习。因此接下来可能探寻的思路方向为：为了适应新的任务，开发者要么需要手动指定一个提
示，要么需要调整模型。如果Transformer可以适应强化学习，做到开箱即用岂不美哉？
随着研究的进一步探索，DeepMind的研究人员通过观察发现，原则上强化学习算法训练中所学习的顺序性
（sequential nature）可以将强化学习过程本身建模为一个「因果序列预测问题」。具体来说，如果一个
Transformer的上下文足够长到可以包含由于学习更新而产生的策略改进，那它应该不仅能够表示一个固定的策
略，而且能够通过关注之前episodes的状态、行动和奖励表示为一个策略提升算子（policy improvement
operator）。当然这里也给未来提供了一种技术上的可行性：即任何RL算法都可以通过模仿学习蒸馏成一个足够
强大的序列模型，并将其转化为一个in-context RL算法。
基于此，DeepMind提出了算法蒸馏(Algorithm Distillation, AD) ，通过建立因果序列模型将强化学习算法提取
到神经网络中。
其中来自OpenAISafety团队的负责人Lilian Weng也在不久前发布的那篇6000字的博客所述的AI Agent的COH思

想也有提提及：将 CoH 的思想应用于强化学习任务中的跨集轨迹，其中算法被封装在长期历史条件策略中。由
于 AI Agents 能够与环境多次进行交互，并不断进步，AD 连接这种学习历史记录并将其馈送到模型中。这样，
就可以实现每一次的预测操作都比以前的试验带来更好的性能。AD 的目标是学习强化学习的过程，而不是训练
特定于任务的策略本身。通过将算法封装在长期历史条件策略中，AD 可以捕获模型与环境交互的历史记录，从
而使得模型能够更好地学习和改进自己的决策和行动，从而提高任务完成的效率和质量。
AD论文原文：In-context reinforcement learning with algorithm distillation - https://arxiv.org/pdf/2210.14215.pdf
AD论文摘要：文中提出了Algorithm Distillation (AD)，这是一种通过因果序列模型对其训练历史进行建模，从而将

强化学习（RL）算法蒸馏到神经网络中。Algorithm Distillation将强化学习作为跨episode的序列预测问题进行学
习。学习历史的数据集由一个源RL算法生成，然后通过给定先前学习历史作为上下文，一个因果transformer通过
自回归预测动作来进行训练。与post-learning或expert sequences的序列决策预测架构不同，AD能够在不更新其
网络参数的情况下完全在上下文中改进其策略。文中证明，AD可以在各种具有稀疏奖赏，组合任务结构和基于像
素观测的环境中进行强化学习，并发现AD能比生成源数据的方法学习到具有更高数据效率的RL算法。
本质上，其思想是将学习强化学习视为一个跨episode的序列预测问题，通过源RL算法生成一个学习历史数据
集，然后根据学习历史作为上下文，通过自回归预测行为来训练Causal Transformer，其灵感来源于某些研究人员
发现Transformer可以通过模仿学习从离线RL数据中学习单任务策略，这一灵感为提取通用的多任务策略提出了一
个很有前景的范式：首先收集大量不同的环境互动数据集，然后通过序列建模从数据中提取一个策略。
于此同时，早在2021年，有研究人员首先发现Transformer可以通过模仿学习从离线RL数据中学习单任务策
略，随后又被扩展为可以在同域和跨域设置中提取多任务策略。这些工作为提取通用的多任务策略提出了一个很
有前景的范式：首先收集大量不同的环境互动数据集，然后通过序列建模从数据中提取一个策略，即把通过模仿
学习从离线RL数据中学习策略的方法也称之为离线策略蒸馏，或者简称为策略蒸馏（Policy Distillation, PD）。
尽管PD的思路非常简单，并且十分易于扩展。
但此种思想在某些训练任务及环境下也存在着一些直观上的天然局限性或者说是缺陷：生成的策略并没有从
与环境的额外互动中得到提升。如文中所举实例：MultiGame Decision Transformer（MGDT）学习了一个可以玩
大量Atari游戏的返回条件策略，而Gato通过上下文推断任务，学习了一个在不同环境中解决任务的策略，但这两
种方法都不能通过试错来改进其策略。（这里可以思考一下AlphaGO）其中可能的假设原因为此种Policy
Distillation不能通过试错来改进的原因是，它在没有显示学习进展的数据上进行训练，即Decision Transformers或
者Gato只能从离线数据中学习策略，无法通过反复实验自动改进。
因此这篇论文中的AD算法通过优化一个RL算法的学习历史上的因果序列预测损失来学习内涵式策略改进算子
的方法，其整体架构如下图所示：

AD包括两个组成部分：1、通过保存一个RL算法在许多单独任务上的训练历史，生成一个大型的多任务
数据集；2、将Transformer使用前面的学习历史作为其背景对行动进行因果建模。
Ⅰ：首先训练一个强化学习算法的多个副本来解决不同的任务和保存学习历史。
Ⅱ：一旦收集完学习历史的数据集，就可以训练一个Causal Transformer来预测之前的学习历史的行动。
由于策略在历史上有所改进，因此准确地预测行动将会迫使Transformer对策略提升进行建模，即
Transformer只是通过模仿动作来训练，没有像常见的强化学习模型所用的Q值，没有长的操作-动作-奖励序列，也
没有像 DTs 那样的返回条件。换句话说，AD 可以提取任何 RL 算法，研究人员尝试了 UCB、DQNA2C，一个有
趣的发现是，在上下文 RL 算法学习中，AD更有数据效率。前提是，AD需要一个足够长的历史，以进行有效的模
型改进和identify任务。
同时算法蒸馏的实验表明，Transformer可以通过试错自主改善模型，并且不用更新权重，无需提示、也无需
微调。单个Transformer可以收集自己的数据，并在新任务上将奖励最大化。
总结下来：研究人员得出以下结论：
• Transformer可以在上下文中进行 RL
• 带 AD 的上下文 RL 算法比基于梯度的源 RL 算法更有效
• AD提升了次优策略
• in-context强化学习产生于长上下文的模仿学习
Think：本质上，AD的这种基于长上下文历史过程为Prompt Learning方式，将基于上下文的过程历史输入指引
经“蒸馏”过的Causal Transformer进行多轮自回归序列预测，在对于更高复杂类或深度推理问题来看挑战非常
大，如围棋问题中AlphaGO/Zero所面临的复杂场景，而AlphaGO/Zero在RL过程中的状态-行动-奖励亦会需要对
其价值网络及策略网络中的参数进行反馈传递的，并在不断传递过程中持续迭代而产生更优着子策略(结果)，其
RL过程中的价值网络与策略网络的逐步迭代亦是一种DNN式的“蒸馏”，但其依然是输入->最优结果策略的推理模
式，而未进行通过更多步骤将RL过程显现。因此，未来是否可以进而迈入Fine-Grained Learning的路径，同时
在构造了足够理想的世界模型（这里指的是封闭域的世界模型，如数学世界或逻辑世界）下，采用序列预测LLM
方法进行直接E2E的PRM反馈训练亦或者通过将类似MCTS等策略模型采用某种方式与序列预测模型进行融合迁
移，并论证其将上述所述在世界模型中学习到的各种形式化知识进行迁移，以满足深度泛化能力的构建，并最终
实现AI4S的突破。
上述的AD算法似乎是尝试通过基于Transformers的模型结构序列预测模型对RL过程中的Q-learning、RM、
Policy等环节进行序列蒸馏，这不得不说是在某种视角下，将当前的LLM与之前的RL建立了某种联系，其目的是尝
试将RL的过程、策略、价值压缩到了LLM中，间接的使得LLM掌握了采用RL方法习得的领域深度洞察。
Think：这里可以尝试思考一下LLM的序列预测预训练框架与RL有何本质的差异或同源？
栓个扣子：在这里是否有嗅到Meta Learning的味道了呢？
基于RL的AlphaGO/Zero再探究 → “LLM×RL”
结合上一篇“AlphaDev的尝试”与“Algorithm Distillation的启迪”两个章节内容的思想回顾，我们似乎看到在以
泛GPT为代表的预训练自回归编码模型(即LLM)与泛Alpha系列为代表的RL之间存在着一些事情，像是幽灵鬼魅般
的位于不同空间中的两个量子间的纠缠，又像是看似不同物种在沿着遗传轨迹向上追溯的过程。因此，为了更深
入的探究两者之间的本质，希望还是通过深入一个历史上经典而又成熟的两个前后进化模型·AlphaGO/Zero来一探
究竟。
在围棋这一古老的游戏中，AI的挑战如同星辰大海般辽阔。围棋的搜索空间巨大，棋面的好坏难以准确评
估，这给AI带来了极大的困扰。然而，DeepMind团队却勇敢地迎接了这个挑战。他们提出了一种全新的方法，利
用价值网络来评估棋面的优劣，再通过策略网络选择最佳落子。（AlphaZero仅使用单一网络来决策步数，不像
AlphoGO采用双塔网络，但背后的RL思想是一致的）
其中，AlphaGO这两个网络的训练过程十分类似人类的思维模式。价值网络和策略网络均以人类高手的对弈
数据以及AI自我博弈的数据为基础进行训练，就像我们小时候学习围棋一样，但对于起来来说，这种更硬核的训
练方式使得这两个网络在围棋对弈中达到了蒙特卡洛树搜索的水平。但DeepMind并未满足于此。他们再次进行了
创新，将这两个网络与蒙特卡洛树搜索有机地结合在一起，打破了原有的局限。这种思想，使得AI在围棋领域取
得了前所未有的突破。不仅提升了AI在围棋领域的实力，更为未来的科技发展打开了新的篇章。
在具有完备信息的游戏中，都存在一个最优的价值函数，其能够在任何状态下逼近准确地预测游戏的最终胜
负，同时基于胜负概率及当前状态，亦能准确的逼近下一步最优策略。这一思想基于穷举法，通过递归地展开游
戏环境当中的策略树，拿围棋来说，可以精确计算出所有可能落子位置的胜率。然而，实际应用中，完全展开策
略树是不现实的，因为其复杂度高达b^d，其中b表示游戏中可落子位置的数量，d则表示游戏的深度。在实际操作
中，这种穷举法的计算量巨大，难以应对。因此，我们需要寻求更有效的算法来解决这个问题。
在对于如何绕过这个困难点上来说，可以适当借鉴人类的认识、评估客观事务的角度及思维：
• 减少搜索深度：通过位置评估的方式，对树的搜索进行截断。比如搜索到某个状态s，使用一个近似函数来预
测当前价值，就不继续向下展开游戏树了。
• 减少搜索宽度：在某个状态下，不对所有的可以落子的位置进行搜索，而是通过落子位置采样的方式，也就
减小了搜索宽度。落子的采样可以服从某一策略的分布。
而且，在人工智能的持续发展中，人们对于利用人工智能新算法解决挑战性问题一直抱有着初心，如AI4S或
AGI到ASI，因此随着RL的持续发展，针对在某些领域的挑战突破上，其中的一条可行的路径也许是找到一个适合
的模拟任务环境（这点非常重要，且需要有自反馈机制，如围棋）从白板状态开始训练、学习，而非借助人类专
家先验，以达到人类或超过人类的状态。而不借助专家历史经验或数据也是考虑监督学习最终会达到一个天花
板，且这个天花板就是所有已知标签化监督数据被纳入到训练集中用于模型训练并最终达到的顶峰。这不不光是
RL在算法上的创新突破，更体现出其深远的价值与意义。
为了能更好的洞悉这种深远的价值预意义，这里希望能再与大家一起简单回顾一下RL算法的实现原理与创新
思想，鉴于AlphaZero整体结构相对简单且E2E的融合了AlphaGO的两个价值与策略双塔网络，因此用AlphaZero
举例说明：
下图是AlphaZero的模型公式描述：

AlphaZero的模型公式描述
1. 定义一个神经网络 ∫θ；
2. 其网络权重为θ；
3. 当前的棋盘状态（加上过去的历史状态）表示为s；
4. 网络根据棋盘状态的得出的输出为（p,v）= ∫θ(s)；
5. 其中p表示采用每一个围棋动作之后的概率pa=Pr(a|s)；
6. v表示一个估计值，用来估测当前状态s下的胜率；
（其中这里的p与v可以理解对齐为Policy Network与Value Network的输出）
详细的训练方法如下图所示：

AlphaZero通过自我博弈的方式，运用RL思想进行网络 ∫θ的梯度学习，在棋盘状态s下，MCTS执行最优搜
索，并输出一个当前步骤最优策略的动作概率π，即进行相比之前步骤反馈的更强大的策略改善操作（π是一个比
原始的NN·∫θ的输出更优的一个监督信息），以运用监督学习训练。同时，在其中的每次监督学习过程中，通过
MCTS持续的搜索执行，探寻Game Winner z，作为当前最优策略着子者并将其策略持续反馈，以最终实现 ∫θ的输
出（p,v）= ∫θ(s)最大逼近MCTS（π,z），详细的MCTS所主导的探寻+训练机制如下图所示：

其中MCTS本质上在其中实现了两方面作用：通过∫θ的（p）来指导其路径（着子）探索，并使用其（v）输出代替
传统的MC rollout算法。
对于其中的p与v，可以理解并对其为网络反馈学习中的Policy输出和Value输出，其训练过程中的损失函数亦对应
Policy Loss和Value Loss：
• Policy Loss：在预测的策略和从MCTS self-play过程中获得的策略目标之间计算交叉熵损失；

• Value Loss：在游戏结束时使用价值分配获得的预测值和目标价值之间的均方损失；
在AlphaZero中训练NN的损失就是这两个损失之总和，合并称之为“AlphaLoss”；
其简单的走子示意及关联的模型训练过程如下图参考所示：

从上图中可看出，AlphaZero所采用的神经网络结构融合了AlphaGO的Policy Network和Value Network这两个

网络，存在两个概率输出(p,v)。
具体的步骤为：
a.
• 首先，∫θ会初始化其网络参数θo，在每一次子迭代过程中，迭代次数被认为i＞1，通过self着子的模拟环境就
产生了。这样在每一个s时刻t下，MCTS算法会被执行：
• 其中MCTS运用的算法是i-1迭代时候的网络∫θi-1，从而获得该时刻t下的棋盘着子可能性πt。
b.
• 在这里，可以看出：MCTS运用前一次迭代的∫θi-1来搜索着子策略，并将得到的这一次迭代的∫θi的训练信息。
因此，MCTS通过搜索相应的策略达到∫θ的棋力提升，并用提升后的棋力着子策略作为新的训练信息反馈到∫θ
中，从而保证其持续的提升（RL思想），以最终达到网络的收敛。
• 当MCTS搜索的着子策略search value低于某个阈值的时候，或者棋局大于某一长度的时候，该场对局会被给
出一个最终reward：
Mark：AlphaZero的self-play过程，对于RL框架来说，其得到的唯一Reward实在游戏结束时，因此在整个过程
中所获得的奖励非常少，而我们的Value Network专注于预测Reward，如果我们想要完善Value训练即缩小
ValueLoss，就需要增加AlphaZero的self-play次数；如果我们想提高Policy training，则可以关注更多MC回放。
• 此前每一时刻t的步数都着子路径都会被记录下来：
在监督信息与loss function上，网络的权重θi会采用上面MCTS所得到的记录信息进行训练，然后∫θ则期望尽量让p
去逼近π，v逼近z，则使用先前步骤的信息来作为监督信息以更新网络权重：
相应的loss指为最小均方值误差和交叉熵，如下：
通过上述内容简单回顾了一下AlphaZero的RL训练思想与过程后，可以尝试在其中提炼出一些关键要素：
• Self-play
• MCTS
• Policy Network & Value Network
• Loss Function
• Reward
• Process
• State > Action
一方面，这些关键要素可以帮助我们全局性的掌握以AlphaGO/Zero为代表的RL的整体框架思想，另一方面，
也可以帮助我们看清RL在某些方面的内涵本质，并在接下来的章节中，我们将一步步剖析这些要素的同时，结合
LLM序列模型或其他模型在训练、推理及所采用的数据模态及模式上进行更加深刻的关联性本质洞察。
另外，为了能够更加平滑的将思考路径引入到下一章节，在这里，想举一个LLM×RL的例子作为承上启下：
Think：其实ChatGPT的RLHF本身即是某种程度的LLM+RL，即在RLHF过程中，但出于RLHF对于大众认知的
普遍性，并在其过程中RL过程的中体现出的Aligning的通用性以及RLHF作为LLM在整体训练过程中的其中一
环，其初衷还是以任务为导向的人类偏好对齐，因此从思维惯性上来说这里对RL的运用更多具有一定的目标性
且由于没有采用类似AlphaGO一种更加彻底的self-play博弈过程，包括在RL过程中所采用的RM在Reinforcement
程度上缺少明确目标标准。而接下来的例子，虽说亦属于在LLM过程中采用RL思想来进行Synthetic Data的
SFT，但在其中引入了self-play的方法，可以说从另一个角度，将RL中的self-play核心过程引入到LLM的SFT
中，在SFT训练过程中弥补真实世界数据样本的充分性、全面性、深刻性、洞察性。
例子即来自于外部医疗+LLM相关论文视角的探索文章中介绍的一篇来自Google Research与Google

DeepMind在2024年1月新出炉的一篇会话式医疗诊断人工智能应用AMIE“Towards Conversational Diagnostic AI”
的论文。

论文部分核心概念简述：
• AMIE采用了一种强化学习算法中「自我博弈-self-play」方法，可以在一个模拟环境中自我对弈，并通过自动
反馈机制，可在各种疾病、医学专科和环境中进行扩展学习。
• 本篇论文采用基于LLM的对话式诊断研究的角度尝试对对话式基础模型进行深度SFT的探索可能，同时在此之
前，作者首先是考虑到当前用于临床诊断真实世界数据精调AMIE上可能存在的两项挑战：①真实世界数据对
于大量复杂的医疗场景和真实条件捕捉的局限性，这可能阻碍了用于模型精调的数据集的局限性；②真实世界
数据往往的病历质量是堪忧的，各种形式的噪声(口语化、表达风格、行为习惯..)。因此作者尝试构建一种自反
馈的模拟环境（Multi-Agent思想），以扩展诊疗交互过程中可能出现的多种医疗条件和环境所隐含的数据和知
识边界。这里感觉在数据结果上类似RLAIF，或者说是一种领域场景化的Self-RLAIF..

• 因此，基于上述框架思想，对应的训练机制采用了两层自循环过程：①「内部」自演循环，即AMIE利用上下
文中批评者的反馈来完善其与人工智能患者模拟器进行模拟对话的行为；②「外部」自演循环，即完善的模拟
对话集被纳入后续的微调迭代中；由此产生的新版AMIE可以再次参与内循环，形成良性的持续学习循环。
• 在推理方面，采用了推理时间链策略（ inference time chain-of-reasoning strategy），使AMIE能够根据当前
对话的情况逐步完善自己的回答，从而得出有理有据的答复。即某种Dialog-o-T。

探索性深度思考：
在AMIE整体学习训练过程中，针对其中的self-play环节即「内部」自演循环过程，对于整篇文章起到了核心
的创新与价值意义，正如论文中所提及的由于采用真实世界数据的局限性，使得模型在SFT过程中会存在对广泛知
识的学习以及模式识别泛化能力的缺乏，因此采用这种self-play自演循环的方法所实现的Synthetic Data以便可以
较大程度解决上述问题。除了论文所解决的上述表象问题之外，我们不妨将Self-Play或Synthetic Data位于整个模
型针对整个医学知识空间的SFT过程的内涵和意义再进行一番深入的探索与再理解。
相关Self-Play的内容也可参考如下两篇文章：
Scaling Law 的业内争议与讨论
My AI Timelines Have Sped Up （Again）
首先我们从Self-Play或Synthetic Data本身的意义上尝试进行一下思考的延展，这里由于Synthetic Data本身

是建立在Self-Play的机制之上形成的，而Synthetic Data有很多种途径（RLAIF方法中的AI Generate与AI
feedback即是其中一种途径），其中Self-Play即是一种看似带有目标场景性的数据生成途径，这个目标场景即是
Self-Play中所处的带有一定目标性的模拟环境。而Synthetic Data最终会在后续过程中用于AMIE模型的Fine-
Tuning。而为了更深入的理解Fine-Tuning的意义，则需要一步步回溯到合成的数据意义再到如何合成的数据，即
数据的合成目标所带来的合成数据对整个模型用于模拟环境中的医学知识与能力空间Fine-Tuning的价值与意义。
因此接下来我们将目标聚焦在核心的Self-Play之上。
在本篇论文中，Self-Play采用了类似Multi-Agent的思想，包括Patient Agent、Doctor Agent、Critic以及

Moderator等角色，在整个自循环self-play过程中，我们发现经过多角色交互过程，在数据层面会合成扩展更多围
绕诊疗环境的多种医疗条件和医学要素，而这些复杂的条件和要素又会作为模型非原始信息作为输入通过多角色
进行进一步的模型生成、决策、反思或评判，是的，这里的关键就是这些「合成扩展的非原始信息作为输入即上
下文提示」，它将在一步步的推理链条中将模型按照规定的情景引导至最终更标准、精确、更高泛化性的结果之
上，而最终将模拟的对话结果用于模型的Fine-Tuning当中来，以保证对模型结果输出的正确性。这里可能大家会
问，为什么需要如此繁琐的过程来合成数据呢？LLM自己不能直接在推理中解决问题吗？难道在采用大量的数据
LLM预训练过程中并没有见到过这些数据？如果没见到，为什么模型还能通过在多角色的交互中合成出来？如果
见到了这些数据，为什么还需要SFT，为什么还需要Multi-Agent、COT、TOT这一过程？当然要要完全回答上述
这些问题，可能需要对LLM的预训练机制和原理进行展开和剖析，在了解了其训练本质后，也许会逐步找到解决
上述疑问的办法。
在这里尝试再进行一些延申，试想一下，在LLM预训练过程中真实世界数据样本是真正足够的吗？与某个领域
的任务对应的真实世界数据样本的组织和分布是合理的吗？即用于LLM pre-training的人类认知下的训练样本空间
的「token」序列组织形态是天然COT的吗？LLM在预训练过程中所预测的下一个token学会的是什么？预训练时
是否能够覆盖空间所有的复杂情况？模型提示词工程 Prompt Engineering与模型参数的Fine-Tuning的本质普遍
性？基于Multi-Agent环境下，是否能达成类AlphaGO这样的self-play博弈环境的学习？等等这一系列问题似乎将会
将我们带入到一个更本质的探寻空间。
在进行上述问题思考和探寻的过程中，刚好也联想到去年了解到的Mistral 7B，而由Mistral 7B也进一步了解到

基于其微调的Zephyr 7B论文中的AIF+DPO(不同于RLHF PPO的算法)算法的思考，包括从Anthropic的RLHF到
Cluade的RAILF，。在这里除了让大众眼前一亮的DPO算法（DPO利用从奖励行数到最优策略的解析映射，使得
将奖励函数上的偏好损失函数转换为策略上的损失函数）之外，我想在AIF这一环节所带来的意义也是非常重大
的。
在Zephyr中，如下图所示，其三步骤的训练方式与chatGPT的三阶段训练方式有着看似较大的差异：

Step1 - sSFT：通过大规模、自指导式数据集(UltraChat)做精炼的监督微调(dSFT)
Step2 - AIF：通过集成收集AI反馈(AIF)聊天模型完成情况，然后通过GPT-4(UltraFeedback)进行评分并二值
化为偏好
Step3 - dDPO：利用反馈数据对dSFT模型进行直接偏好优化·DPO
其中这里的Step2 - AIF，即某种程度上的一种self-play，也是通过多模型prompt生成来进行的一种RL，试
想，通过其中的AIF，对于模型最终所采用的DPO算法的SFT过程里，其用于最终模型的SFT所训练的AIF数据集
在与原始pre-training数据集在数据(tokens)序列组织构象上应该有着一些差异，而这种差异是之前原始数据集在用
于模型pre-training中很难找到的，而这也是一种Synthetic Data的路径，关键是这种Synthetic Data与原始Data上
述中的那些特征与知识分布差异。
DPO算法：如下公式的解析通俗来讲就是：当一个答案是好的答案时，模型要尽可能增大其被策略模型生成的概
率，而当一个答案是差的答案时，模型则需要尽可能降低其被策略模型生成的概率。

以上，我们在RL×LLM上开了一个小头，了解到了一些两种算法或训练模式的融合例子，并尝试做出了一些探
索性思考，接下来，将上述模型case以及延展的思考进行一下沉淀，回归第一性原理进行更进一步的本质探寻，
以求找到两者之间所隐含的的共性、差异以及之所以呈现出当前技术发展路径与现状的必然性。
回归第一性原理
接下来将着重尝试阐释LLM与上述介绍的RL两种模型算法亦或训练思想的Uniqueness和Universality，也许有
人会认为LLM与RL并不适合并列放在一起对比（一个是模型，一个是方法或思想），这在接下来的内容论述中会
向大家进行解释，这里姑且把两者都作为一种模型训练思想+推理模式+所涉及的用于模型训练的真实世界数据组
成、函数及工程的方法来统一看待。
LLM洞察&阐释：
LLM大家都已经再熟知不过了，为了承上启下，这里针对LLM再做一些简单的概念以及自认为一些关键内涵的
回顾。从概念分类角度上看，大语言模型是深度学习的分支。其中：
机器学习是人工智能（AI）的一个子领域，它的核心是让计算机系统能够通过对数据的学习来提高性能。在机
器学习中，我们不是直接编程告诉计算机如何完成任务，而是提供大量的数据，让机器通过数据找出隐藏的模式
或规律，然后用这些规律来预测新的、未知的数据。
深度学习是机器学习的一个子领域，它尝试模拟人脑的工作方式，创建所谓的人工神经网络来处理数据。这
些神经网络包含多个处理层，因此被称为“深度”学习。深度学习模型能够学习和表示大量复杂的模式，这使它们在
诸如图像识别、语音识别和自然语言处理等任务中非常有效。
大语言模型是深度学习的应用之一，尤其在自然语言处理（NLP）领域。这些模型的目标是理解和生成人类语
言。为了实现这个目标，模型需要在大量文本数据上进行训练，以学习语言的各种模式和结构。如 ChatGPT，文
心一言，就是一个大语言模型的例子。被训练来理解和生成人类语言，以便进行有效的对话和解答各种问题。如
下图所示中LLM与ML、DL的关系：

同时，LLM还有一个可以说独有的特点，即生成式AI，这也是区别与其它传统模型或训练任务的
Uniqueness，表面上看，这种技术包括用于生成文本、图像、音频和视频等各种类型的内容的模型，其关键特性
是，它不仅可以理解和分析数据，还可以创造新的、独特的输出，这些输出是从学习的数据模式中派生出来的。
Think：这里可以稍微停下来思考一下生成式模型和判别式模型在底层模式的普遍性和差异性。在这里，个人认
为“生成式”的核心之一在于采用了更高效的token化，而language亦或是code作为token化的承载媒介，是人类认
知推理、链接物理世界、抽象化表达的最重要且涵盖范围十分广泛的概念化空间。而某种程度上，判别式模型在
“判别侧”即模型输出“Y”侧对于生成式模型来说亦属于其子集（其实不光是“Y”，模型输入“X”侧且任务本身亦属于
其子集--这里指的是用于模型推理过程的某种信息变换X→Y的整体模式），因此也就为大多数人所认为的LLM会
取代或替代传统模型提供了理论的可能，即人们常说的： Token is all you need！--- 相比于之前的“Attention is
all you need”，感觉Token化的意义会更大：Attention为AI打开了一扇通往对复杂世界理解的一扇门，Token化则
是在在通过这扇门后对于未知世界迈出的第一步，对于视觉领域，结合OpenAI最近所发布的sora中所采用的一
项创新，即“Patches”，就像Token一样将多种模态符号表示(代码语言、数学形式语言、自然语言)统一起来一
样，sora采用将视觉数据压缩到低维的潜空间，然后表示分解为时空patches，从而实现了将像素级视觉数据降
维转换为patches，即在这个“压缩”后的空间中接受训练，而后再利用扩展模型生成连续的像素级视觉数据(视频)-
--这里应该是openAI在sora中形式化训练了一个解码器模型，从而将生成的潜在表示映射回像素空间。
在模型架构及训练模式方面，以chatGPT为代表的大多数LLMs均是基于Transformer的序列预测/生成式模型
架构，其中，LLMs之间会存在编/解码方式、训练任务目标等不同的差异性，如下图所示，这里需要指出的是：上
述提及的“模型架构”更多是包含了广义上的一些理解，包含模型的网络拓扑结构（全连
接/CNN/LSTM/Transformer/GCN..）及其中所蕴含的那些数学变换方法或思想、不同任务的学习目标及对应采用
的损失函数，梯度策略等。针对生成式架构，亦包含诸如多模态视觉模型中采用的变分自编码器、掩蔽自编码
器、去噪自编码器及LeCun提出的JEPA（联合嵌入预测架构）甚至最近OpenAI刚刚发布不久的sora所采用的扩散
模型及其他诸如生成对抗网络等。
除了上述向大家所阐释的LLMs的token化生成式推理模式以及对应的模型架构的两个关键内涵之外，接下来想
再跟各位读者一起分享探讨一下大模型(LLM)中的「In-Context Learning」这一概念和意义-不光局限于LLM本身的
意义，甚至将「In-Context Learning」这一概念更广泛的延展到模型任务推理以及模型训练的普遍而深远的意义之
上。之所以要将目光聚焦到「In-Context Learning」这一概念，主要原因更多是由于在LLM中Context对于模型训
练任务过程中所采用的训练思想，模型推理过程中的few-shot和zero-shot以及带来的prompt learning&prompt
engineering等一系列思想有着深刻的内涵联系。
Think：如果上述所提及的token化是针对于整个模型任务的输出侧的一种普遍适应性的创新，那么Context所涉
及的上述一系列内涵思想则代表了对于模型任务输入侧的一种普遍适应性的创新。这里的“普遍适应性”则代表了
模型处理广泛而普遍任务的一种泛化能力，同时利用上下文所实现的一系列x-shot或prompt engineering似乎与
模型本身参数的Tuning又有着些许隐含的关联，或者在某些层面上两者有着本质的同一性。
在探索「In-Context Learning」这看似神秘和诡异的现象前，希望能先从几个问题入手，尝试从问题出发，逐
步剥开其中的奇妙内涵。
在ChatGPT于2022年10月正式发布前，围绕语言模型的「In-Context Learning」「few-shot」「zero-shot」
「prompt engineering」等思想已经有很多研究论文涌现出来，不同于传统判别式推理模型，其更多的提示场景用
于解决生成式推理任务，而这种生成式推理任务场景似乎又与Prompt-Learning这种模型基于Prompt的训练、推理
方式又有着某种天然的匹配与契合性。然而随着ChatGPT发布后为人们所带来的惊艳以及席卷全球的火爆热度之
余，相当一部分AI研究者也将目光从这种惊艳与热点上缓缓移开，回归到冷静的思考，并结合之前自身所在的AI研
究领域所进行的一系列技术路径的尝试及研究成果与ChatGPT在任务性能、任务类型、任务扩展、任务范围、训
练思想、模型结构等维度进行反思与探寻，以寻求在技术与方法本身在底层逻辑上实现一定的对齐与自洽。
问题一：为什么「In-Context Learning」或相关的「few-shot」「zero-shot」「prompt e与gineering」等思想

能打破传统训练范式并建立新的技术路径进行模型下游任务的SFT，而不用在调整模型任何参数的情况下，在实现
传统模型精调后的目标及Benchmark测试中，已经媲美或超越相当一部分的原有模型微调任务的SOTA（当然这里
离不开LLM所采用的海量训练数据Pre-training下习得、压缩的广泛而通用知识）。
问题二：LLM与传统模型的任务有哪些差异和相同的点？
问题三：是否所有传统模型下的任务都能很好的尝试用LLM来有效解决？
针对问题一，在学术界和产业界一直有着相关理论上探讨和争论：
如在推理阶段，研究人员专注于基于给定的演示来分析In-Context Learning-ICL能力是如何运行的，因为不涉
及显式学习和参数更新，通常从梯度下降的角度进行分析，并将ICL视为隐式微调。在这个思想框架下，ICL过程
可解释如下：通过前向计算，LLM生成关于演示的元梯度，并通过注意力机制隐式地执行梯度下降。实验也表
明，LLM中的某些注意力头能够执行与任务无关的原子操作（例如复制和前缀匹配），这与ICL能力密切相关。
为了进一步探索ICL的工作机制，一些研究将ICL等效地抽象为一个算法学习过程。具体而言，LLM在预训练
期间基本上通过其参数对隐式模型进行编码，通过ICL中提供的样例，LLM可实现诸如梯度下降之类的学习算法，
或者直接计算闭式解，以在前向计算期间实现对模型的等效更新。在这个解释框架下，已经表明LLM基于ICL可以
有效地学习简单的线性函数，甚至可以使用ICL学习一些复杂的函数，如决策树。
因此，在LLM在进行训练过程中，通过学习到的大量“Concept”，掌握了诸多与Concept相关的多种多样文本
级别的潜在变量，使得Concept结合非常多的潜在变量指定了文本语义的方方面面，在推理过程中，学者猜测LLM
通过本身所具备的学习能力，在进行ICL过程中“借鉴”到其中的隐含的Concept，等效于隐式的对自身进行了精
调。
而要搞清楚问题一的本质，可能要将问题二和问题三一起联系起来进行分析和探寻，这里尝试给出笔者自己
的一些片面的考虑：
对于任何一个模型来说，其核心要素除了包含模型的参数之外、还包含模型的输入(X)、输出(Y)以及所涉及的
任务本身，而这里的「任务」对于模型的输入(X)、输出(Y)及对应的模型参数有着多样化的在可变空间的组合（这
里把模型所涉及的输入(X)、输出(Y)及对应的模型参数进行概念形式化要素的定义），而不同的组合则依托于模型
在前向&反向传播过程中底层形式各样的数学变换（变换的是特征空间里的特征映射亦或概念空间中的概念映
射），而多样化的数学变换又与模型本身的结构(这里指DNN/CNN/Transformer..)及多种目标函数的类型息息相
关。这里用一张较抽象的示意图将LLM与传统模型进行相对直观对比说明：

传统模型AI与LLM模型在任务相关要素及特征空间上的形象对比
如上图所示，任务A对应与传统DL或ML，任务B对应LLM模型，两者最大的差异在于在输入域与输出域的表征
空间上两者的拓扑结构上的差异。
对于传统模型对应的任务A来说：其输入域的表征编码空间与输出域的表征解码空间是完全独立且闭集的，因
此，可以理解输入域的表征编码空间对于输出域的表征编码空间来说对于任务的目标函数具备某种固定模式映射
规律，而这种「固定模式」直觉上（暂未找到一种合适的数学描述来衡量这种抽象概念与量）则更多会受到来自
模型中参数的影响。同时，由于模型参数的大小有一定的局限性，因此在此种任务模式下，针对模型进行参数精
调训练将会变得更加行之有效。
对于LLM对应的生成式任务B来说：与之对应的输入域的表征编码空间与输出域的表征解码空间均是前文所说
的Token化的，且Token集合域处于统一符号空间（语言符号化表征或Sora的Patches化表征），因此模型在进行
前向传播推理过程中，直觉上与之对应的模式是非固化的（这里同样由于无法找到一种适合的理论描述来论述这
种抽象概念与量），而正是由于这种非固化的数学变换式推理过程中，除了需要更大的模型参数来压缩特征或语
义应对这种推理模式外，亦为模型输入侧X提供了推理作用空间变换的权重。而对于模型本身的网络结构来说，这
种输入域的表征编码空间与输出域的表征解码空间的全局Token化，也为模型的通用性及推理深度（如系统2中的
COT、TOT等）提供了潜在空间。
因此，在得到针对上述两种任务所对应的两种模型推理模式中的In-Context Learning-ICL和SFT来说，通过分
析其两者之间的模式差异后，我们不难发现两者之间隐含着某些共性的东西，比如输入域表征与模型参数对于模
型任务的推理（本质上是某种形式的数学变换）从底层数学变换的角度来看其本质是相同的，看似的表象上的差
异则是这两者之间数学变化的复杂程度及与之对应的模型结构的复杂性的区别。
在这里增加一段自己在23年2月时针对上述问题的一些不太成熟的思考历程补充，因为当时很多内容没有做全面
而深刻的思考，只是做了一些灵感上的记录和直觉感性上的反馈，所以内容有些零散且不易读，因此大家可选择
性阅读，但内容上感觉还是有一些当时思考时的点可以进行回味的：
记录于2023年2月：
ICL与SFT的两种对模型本身的结构和任务推理模式感觉一种是scale-out，一种是scale-up的；
LLM的预训练生成模式相对比传统判别模型的这种判别模式反映出当在做下游任务时，SFT会对信息熵即现实世
界知识压缩的更具有领域目标性·取决于目标任务的设计；
还有一种两者间（LLM的ICL与传统判别模型的SFT）区别的感性直觉：LLM在任务训练以及推理的模式是基于
tokenize的，传统判别式模型是任务指定性的，虽然可能两者的语义空间离散度是一样的，但对于模型的输入与
输出侧的这种模式的不同，可能会衍生出ICL和SFT对于我们来讲的两种底层的数学变换模式；
LLM在这种tokenize的预训练阶段，可能对于输入与输出侧的序列的整体分布上的映射在其中的模型底层数学变
换中会针对不可预知的下游特殊任务模式带来一些语义空间的信息增益（拟合），即可能习得某种发散性的知
识，但更抽象的、更领域纵深化的一些知识无法形成有效的泛化，而对于SFT来说，带来的领域特定任务模式的
这种所谓的知识压缩泛化效果会更好；
可能对于传统判别式模型从任务模式上来说，更偏向于细分领域抽象任务，且对于tokenzie这种面向的更广域的
概念表征世界中来说，很难形成这领域知识的压缩或模式的泛化能力，即LLM预训练阶段过程中，在【整体基于
模型结构的数学变换任务收敛方向】上，很难自然的在输出隐层阶段形成很好的模型预测效果，因此需要SFT或
RLHF，SFT或RLHF的是这类细分领域数据的分布拟合。
补充两周前的两种（ICL&SFT）模式的等价或等效性：（1）数学变换上的等价→在纯数学维度上，一种是所谓
的scale out，一种是scale up，一种是上下文变量的变换，一种是参数变量的变换，最终都是对数据分布的一种
底层数学变换模式；（2）不同任务类型及对应不同模型结构变换上的等价→（2）这里可能需要分别by任务和
by模型结构来看，所谓两种范式的等效性来自于底层数学变换本质相同（随具象性有差异），即模型结构的数学
变换本质相同，详细解释为：对于两者不同的输入数据，模型会依据本身的模型结构及参数进行变换调整，其中
重要的是变换的策略会呈现多样性及类似于生物学的多功能性，看起来是完全两个不同的本质，但其实结构所带
来的变换的本质是一样的。比如类GPT LLM，在推理过程中，由于prompt的不同，导致MOE模型结构中的专家
模块指引上的变换路径（这种变换当然也依赖模型结构影响），而传统的小模型，由于其模型结构与上述LLM大
模型差异巨大，针对不同的输入，模型肯定也会依据自身的参数结构进行推理过程中的变换，只不过变换的复杂
度会小很多（不会产生类似参数finetune这样大的幅度，而上述LLM举例来说由于内部使用了attention，moe或
adapter等机制，这种变换达到了SFT效果）。
今天与小伙伴们在测试chatGPT的一个医疗交互场景中，直觉性的感受到chatGPT中模型结构的一种内涵：如往
往某些时候，LLM模型中的输入表征浅层对于prompt所给予的信息量是比较少的，然而即便这样少的信息量提示
差异，模型往往在生成的结果上会体现出非常大的差异甚至是复杂度完全不同的内容（如COT中的step by
step），当然，表面上可以归结于模型预训练阶段的训练样本的记忆，但其背后的内涵可能是模型结构的本质不
同，如模型内通过多层的特征变换实现了某种信息扩展，在扩散的过程中会通过纯模型网络结构及结构中激活参
数进行其中神经网络单元的激活，被扩散到的神经元算子会根据少量而抽象的prompt经过多隐层的特征变换（本
质是数学上某种正向或反向变换）来进行激活，这里可能也是一个子模型结构，最简单的比如attention，而非
input输入的信息去左右模型的运算 - 即：知识被真正的融入模型结构参数中了。
...
在上述针对围绕LLM的洞察思考上，我们尝试通过在几个方面进行对LLM内涵的深入阐释，包括：Token化、
In-Context Learning、模型编码结构及推理空间等维度，希望通过这样的阐释，能帮助我们更好的找到LLM与传统
DDL或RL本质上的统一 - 这也是我们采用回归第一性原理的思考方法所做出的一小步尝试，也为我们将探索进一
步扩展到基于LLM×RL进行「世界模型」和「系统二思考」的探索上铺设了一些基础。
以上本篇文章「上篇」完结
写在前面：因为在写「上篇」时，叙事和论述方式是尝试从LLM和RL两种算法思想的具体实例再到历史回顾，
最终回归到本质的一些思考，在内容上有些繁冗，当然这也是为了铺垫后续章节的观点和思想所采取较大篇幅进
行的剖析，其中不乏包含了一些技术上的描述，有读者也反馈其中部分内容过于晦涩难度。因此在接下来的「中
篇」与「下篇」中，我将尽量采用一些简单直白的语言向大家呈现其中的观点和内涵思想，在下文中将非必要铺
垫部分为大家提示出来，大家可选择性阅读。
「中篇」
「系统一 · 快思考与系统二 · 慢思考」的本质&阐释：
细心的读者可能会在上篇的内容预告与中篇内容的更新中对比发现，将「系统一 · 快思考与系统二 · 慢思考的本质
&阐释」与「LLM×RL本质&阐释」做了先后调换（相信大家从这里也能推断出「中篇」和「下篇」的撰写是在发
布「上篇」后才进行撰写的，并没有提前写好:），之所以进行调换，更多考虑是能够从更根本的问题出发。通过
深入的探究快与慢思考的表象的差异性和智能的普遍性，能够帮我们更加深刻的去理解推理或思考这一过程本
质，并在此基础上形成一定的基础理论观点或假设，更好的对「LLM×RL本质&阐释」内容进行阐释，在阐释过程
中将会发现与本节中所提及的系统二慢思考有着很大的影射和关联。
另外，在正式进入本节正式内容阐释之前，考虑到「上篇」中部分内容较为晦涩难懂且内容繁杂，因此想上来就
开门见山的为读者抛出一些相对明确的观点，这样在后续的step by step阐释中通过这样一个引子帮助读者能够有
一个更好的阅读预期。
我想以前几天前(2024年3月)我在知乎的一个回答来抛出这一观点：

题主问题：
大模型的本质就是预测下一个词是什么，所有的涌现或者智能都是基于此。那么人类的思维是不是也是这个样子
呢？看样子有点像，因为类似思维链的技巧（一步步的思考等）其实对大模型和人类都有效。
更进一步的问题是，如果没有语言那么人类还能产生理性的思维么？
我的回答：
如题，我觉得人类的思维很有可能是基于此种tokenize的预测模式的，只不过tokenize的结果及过程形式会有一
点不同，但回归第一性原理来思考，本质上是一样的。
另外从系统①（快思考）与系统②（慢思考）两者之间的内涵上来看其实也能侧面映射出当前LLM与人类的思维
内涵存在着某种联系。任何模型在进行推理时，本质上都是对从一个状态（特征/过程）空间映射到另一个状态
（决策/动作/甚至慢思考中的规划与反思…）的符号化（离散表征）或向量化（连续表征）空间，而这种映射其
实模拟一下人类思考的思想试验也是类同的，而LLM模型网络内部和有研究表明的人类大脑，即其实亦是从一层
神经元到下一层神经元的映射（神经元信号激活），比如这种映射可以表征对状态特征的提取，事物的具象到抽
象，状态所对应的决策/行动...而这映射两端的不同空间表征是可以任意的且客观存在的，且随着人类行为的反馈
亦机器的监督学习来建立关联的，当然这取决于“大自然”赋予人类的偏好决策与行动空间，就像人类赋予机器对
应的任务监督模式与决策空间。
因此回到上述系统①和系统②，系统②相对于系统①，其实本质也都是同一的，只不过系统②在神经网络激活
（信号正向传播）过程中，经历了不同的映射层，甚至在LLM所驱动的Agent中的规划，反思，如COT，TOT，
GOT，AOT，BOT，XOT等策略过程亦是属于中间过程的不同表征空间的一种映射，只不过在映射的过程中通
过in context上下文给予了提示（比如COT的step by ste..），而这种提示prompt有可能会激活（这里的「激活」
在两者思维或运算推理过程中的数学本质上即是指将输入侧的信息向量化表征通过模型正向传播计算即数学变
换）人类大脑神经元和模型中间网络神经元的信号传递的路径（当然路径是丰富多样的，并且模型或人类大脑在
过程学习训练中可以呈现出上述泛*OT的这种模式）。
因此，对于上述所说的in context learning也好还是prompt leaning也罢其实对于人类和机器的推理与思考或直觉
来说也是某种程度的同一。
当然LeCun提出了另外一种实现像人类智力能力的AGI-世界模型，强调模型在中间抽象层的构建，但我始终认为
通过采用有效的训练与学习方法，模型在网络空间隐层中，是可以习得这些抽象概念的逐层映射推理表示的，关
键采取什么样子的训练方法以学习到这种更抽象的类人能力甚至是超越人的抽象模式，也许LLM+RL强化学习是
一条路径，包括引入相应的过程奖励函数，以及构造足够抽象可形式化推演的模拟环境以进行有效的self play
（如围棋或数学证明）。→ 这里又会遇到另一个问题：这些虚拟环境与真实世界环境的空间可表征有多大差
距，是否能通过某种方法进行逼近？当然即便无法有效完美逼近，在虚拟环境中所习得的抽象推理或决策（本质
上是上述说的模式映射）亦可以通过迁移实现模型的的泛化。
最近也在进行相关方面的思考和持续探究，也写了一些内容，分享给你，希望能有所帮助：...即是本篇「上篇」
因当时时间有限，主要以答题的目的进行了一些观点的阐述，表达上可能会有一些不严谨或表达逻辑上的偏差。
知乎链接：大模型的本质就是预测下一个词是什么，所有的涌现或者智能都是基于此。那么人类的思维是不
是也是这个样子呢？ - 知乎
在上述题主的问题中，其实包含对LLM的三层疑问或思考：
疑问一：Tokenize对于LLM以及人类的智能意义？
疑问二：思维链 · COT的意义？引申出「系统一 · 快思考与系统二 · 慢思考」的本质思考。
疑问三：人类语言Language的本质思考。
对于疑问一，在「上篇」中的最后一部分中，其实已经向大家进行了相关讨论与说明，随着业界和学界对
Tokenize认知逐渐加深，Token is all you need已经被大家所共识，它不光是从传统辨别式小模型向生成式大模型
演进的一条必经之路，而且从tokenize的广义内涵上来说也为AI通往AGI之路打开了一条门缝儿，比如后续的sora
针对CV数据的patches创新 · 就像Token一样将多种模态符号表示(代码语言、数学形式语言、自然语言)统一起来
一样。
Tokenize可以说与人类在这个世界中的规划与思维决策到具体的行动甚至细微的动作决策，与经典物理规律中从
微观粒子的运动作用到宏观现象表现等有着本质上的普遍相同性。我们可以试想一下，LLM的next token predict虽
说是依据之前文本序列进行下一个token · 字/词的分类概率预测（也对应有回归性预测），但这种概率预测本质上
亦是一种微观层面的决策输出，最终实现的连续token输出·即生成，step by step地形成了对应的宏观行动决策
「这里栓个扣子，不知大家有没有看到step by step？是的，这个东西又出现了，其实本质上step by step即是从微
观推理到宏观涌现的一种模式，在接下来的深入系统二 · 慢思考的探索过程中，tokenize已然是其可实现的底层逻
辑，是为基础，也建立出系统一与系统二的普遍性本质基础」。
对于疑问三（为了铺垫本章节的主题，我们将疑问二暂且放在最后进行统一的阐述），语言（英文：Language）
作为人类进行沟通交流的表达方式，也是人与人交流的一种工具，更是文化与知识传播的重要载体。尽管人们可
以通过图片、动作、表情等可以传递人们的思想，但是语言是其中最重要的，也是最方便的媒介。而这种方便性
的体现正式由于语言本身作为符号化表征能够具有非常强大的动态扩展性以及概念抽象性。
对于语言的动态扩展性上来说，可以结合人类的历史发展上来进行观察，随着社会、人文、科技等多元化的发
展，语言也是在不断变化和调整的，而对于可符号化的一种信息可传播或加工的形式，语言带来了对这个世界进
行抽象表征的更好的动态扩展性，从而推动语言符号对抽象概念的更确切的表征。
对于语言的概念抽象能力上，我们可以看到，在人类沟通活动、知识传承、思维探索过程中，甚至是现在人与机
器的互动访问中，语言始终起着关键而又核心的媒介作用。为了能够帮助大家更深刻的认识到语言在人类世界中
的关键作用，想举例罗列一下，当然这部分非本文和核心观点，若自觉冗长的话，大家可自行跳出这部分的阅
读，了如语言所体现出的如下性质：
「指向性」：语言具备指向性，语言的指向性使语言的含义描述可以指向对应的事、物。如：具体的实体-树、
人等，抽象的概念-上、下、圆、方等，逻辑表述-与、或、非等，行动与策略-规划、反思、判别等。同时，语言
的指向性受人为认可的事实。例如，“人”可以表示真实的“人”，但如果不认可其表示“人”转换另一个符号那么语言
的指向性就会转换到另一符号上。因此，我们看到，某种意义上，语言的这种「指向性」是能够指对真实世界客
观事物的一种概念化表达，而正因为这种概念化表达，才能够通过语言这一符号化表示建立人与世界的认知关
联。也就明白了前一阵子王小川为何要在内部强调在有限的资源下要聚焦在all in LLM上，用LLM来链接一切，
而对类似sora的模型投入要慎之又慎。
「描述性」：语言的描述性是语言含义的体现，语言具备描述性是语言能够交流的重要体现。语言的描述性受语
言的指向性变化。如：人/大人/小大人，人/人民/人民的等。当然，描述性本身也是对这个世界另一种抽象事物的
一种概念化指向。
「逻辑性」：语言是一种有结构、有规则的指令系统。语言的逻辑受语言的指向描述而变化。如：我是一个中国
人/我像一个中国人，1+1=2/1*1=1，this is an apple/this is a car等。在上述语言的「指向性」中，能力体会语言
这种单一的词、字符号化可以指向真实世界的某一个概念，然而在这个世界中，事物亦是可以组织或者事物间是
有着逻辑上的关联和结构的，因此除了抽象概念的一对一映射指向，语言作为一种序列组织结构，在序列的这种
形式化表征上，可以体现出复杂的逻辑性或数学结构，实现对真是物理世界的进一步抽象表征。比如在早期语言
模型建模中经常用到过的RNN、LSTM，当前LLM的Transformer模型结构，正式对这种语言序列性所体现出的逻
辑机构进行的适配。当然图结构作为一种非欧符号化表征，GCN模型也是对知识图谱符号的一种建模结构适
配。这里有兴趣的读者可以再延申一下思考：世界上是否存在除了自然语言、变成语言、数学语言等其它形式的
符号化表征的存在，如果存在，那么用于机器学习建模的模型结构应该是什么样子的呢？同时，对于非碳基生物
来讲，语言是否像能够对人类使用一样，进行得那么顺畅和友好？「这里同样再栓个扣子，不知大家是否还记得
在上篇论述AMIE的过程中，提到了语言或其它符号的分布或构象所衍生出的探索语义空间的更深一层的表征潜
力，关联LLM的pre-traning到super alignment，再到杨植麟所提到的LLM在进行pre-traning到alignment过程中的
scaling law本质，我们似乎能够体会到未来通往AGI的道路并非如此简单，这也是本篇文章想要表达的核心观点
之一，也是希望能够探寻RL与LLM的本质普遍性，试图建立一种尽最大努力将真实世界所有事物进行有效压缩
的路径，如RL×LLM的融合。当然在这之前，我们需要探明不管是基于语言的符号化表征体系，还是真实物理世
界体系所蕴含的表征空间还存在多少潜在知识和未知可能，而这些有可能存在于物理真实世界与虚拟数字世界中
的多样化不同的构象与分布当中」
「语言的交互性」：物质与物质之间的交流需要建立一定的联系，无论其是否相关。而两个非相关的实体要建立
联系就必须采用一定的方式。而语言沟通是采用一套具有统一编码解码标准的声音（图像）指令输出，从而使得
生物（人）与生物（人）获得沟通。同时，正由于语言所具备的这种天然的交互性，使得除了表面上可以在两个
实体之间进行信息传递与交互外，从另一个角度来看待这一过程，可以进一步放大语言在真实世界中的分布表
征，并通过这种对语言分布的进一步的放大，使得其所蕴含的真实世界知识内涵（压缩的世界知识）的表现形式
更加多样化。
「传播性」：语言的沟通需要采用一套具有统一编码解码标准的声音（图像）指令。而具有统一编码解码标准的
声音（图像）指令并不为生物天生，因此，人类需要通过学习获得，而人类学习语言的过程就是语言传播的过
程。
「传承性」：语言可以传播使得语言具备无限传播的能力，无限传播语言可以使得两个异时空/异地域的生物
（人）可以获得相同的一套编码解码标准的声音/图像指令。因此从理论上来说，语言可以受公共大众共识传播
并保存。但实际上语言时时都在进化，两千多年前无论是语音还是字符都与今天的语言变化较多。且不同地域的
有特殊交际行为/语言的物种也有自己的特殊交际行为/语言。而现代语言却又是建立在古语言的基础之上的。因
此，可以说现代语言是古语言通过无限传播（传承）与进化同时并进而得来的。语言的无限传播是一种假象也是
一个事实（已传承的事实）。
「不变性和可变性」：语言是一个处在不断地运动变化发展之中的体系，这个体系中的各个要素既有一定的稳定
性，也有一定的变动性，稳定性是语言系统的已存在的前提，也是语言自身在人类世界被大规模研习使用的必备
条件，而变动性不仅仅是作为一个系统，语言内部的不断衍生、发展的规律所致，而且也是语言的传承性的表
现。任何事物都是不断的运动变化发展的，新事物不断地产生，旧事物不断地消亡。语言也是这样，语言系统的
变化虽然不是很明显，速度并不是很快，但是受到使用的推动以及社会、文化等等很多因素的影响，语言本身在
不断的向着经济、简练、实用、包容力、表现力强的趋势发展...
所以，我们看到上述有关语言的相关概念及意义的描述，回到题主的原始问题三「如果没有语言那么人类还能产
生理性的思维么？」，我想除非找到一种更加丰富的能够表征“理性”的工具或媒介，也许在没有语言情况下，很难
建立起如此繁杂、抽象的概念大厦，也就无法到达柏拉图《理想国》当中的理念世界。或者说语言是为了智能体
理解更高级别抽象的概念而必然存在的符号表征媒介。
问题三——终于来到了「系统一 · 快思考与系统二 · 慢思考」这一观点的探索和思考了，我想仍然采用一种自身经

历回顾的叙事角度，先为大家介绍一下我最初从刚刚开始接触这一观点，到随着大模型的进一步发展进行的一系
列思考，再到如今出现的一些客观实例，最终进行这一领域问题的本质归纳与猜想。

要进行「系统一 · 快思考与系统二 · 慢思考」的阐释，就不得不提及最初提出这个观点的一位研究者：丹尼尔·卡

尼曼（Daniel Kahneman），某种程度上正是由于他在2012年出版的《思考，快与慢》这本书，才使得去年
Andrej Karpthy（前OpenAI雇员）站在讲台上用生动形象的心理学研究视角为大家阐释chatGPT通过COT或TOT
进行few/zero-shot learning的过程。当时记得在2013年前后有过翻阅这本书的经历，主要原因是由于当时年轻的
自己业务对一些关于人类认知科学方面的事物比较感兴趣，偶然间在北京西单图书大厦角落里发现了它，但在模
糊的记忆中记得当时这本书给我留下的一些印象是读起来比较晦涩难懂（可能跟自己的专业背景差异太大吧，依
稀记得这本书里面的主要内容都是从心理学的视角上进行解释的），很多章节都没有进一步深入读下去且进行思
考，在快速阅览了前面的目录和前两个章节后，转而投入拐角处的另一本当时的畅销书《失控》-作者：凯文·凯利
KK，这本书相信大多数70/80后都有阅读过，并对其中的某些新颖观点产生了瞪大双眼似的浓厚兴趣，比如书中提
及的“涌现”，是的，ChatGPT刚刚推出带给大家更多惊艳其背后即是其“涌现”能力。当然，现在回想过去“错失”的
这本《思考，快与慢》，其实倒也没有什么特别的遗憾，主要是当时确实也没有更多的科学实践或者工程技术能
够将书中所提及的人类思考的这一过程能像如今的大语言模型LLM一样被如此近似形象化的呈现出来。这里也想
简单再跟大家以个人的视角简单回顾一下这本书的内容以及映射的内涵思想：
第一部分：“两个自我”，作者介绍了人类思考过程中的两个自我，即快速思考和慢速思考。快速思考是基于经验
和直觉的自动化思考，而慢速思考则是基于逻辑和分析的深思熟虑。作者强调了这两种思考方式在决策和思维中
的重要性，并指出了它们的优缺点。看起来就经验和直觉的快速思考与LLM的next token predict在直觉上感觉很
类似，慢思考感觉是基于多次LLM next token predict下驱动的Agent或RAG的推理模式，而这本身也是由人类
规划、分析、反思等行为通过tokenize prompt来step by step实现的。
第二部分：“代价”，作者讨论了快速思考和慢速思考的代价。虽然快速思考更快、更自然，但它也容易受到偏见
和错误的影响；慢速思考更准确、更深入，但它需要更多的时间和精力。作者介绍了许多有关思维效率和效果的
实验，并提供了一些方法和技巧来平衡这两种思考方式的代价。这也与基于LLM的next token predict（慢）和
Agent（快）在推理精度上的行程匹配。
第三部分：“偏见”，作者探讨了许多思维偏见和错误，如确认偏见、可得性偏见、群体偏见等等。这些偏见都会
影响我们的决策和思考，导致错误和失败。作者提供了许多避免这些偏见的方法和技巧，并强调了审慎和警惕对
于思考和决策的重要性。关于偏见这部分看似没有体现出与当前LLM在推理和应用上的端倪，但我想这里可能还
要给大家留一下一些待思考的印记：首先如果这里的“偏见”是指在LLM预训练阶段通过采用了“偏见”的训练样本
造成偶发性错误，那问题还是比较好理解，但如果是一种更加泛化性的“偏见”，比如前一阵子Gemini生成人像的
翻车事件，那这里面可能就有一些玩味了，我想可能要从更宏观的面向pre-training或RLAIF的整体任务样本数
据分布上看待整个事情了，请参考在「上篇」中AMIE或本篇中上述有关完整真实世界语言符号分布或构象的提
及。
第四部分：“选择”，作者讨论了决策和选择的过程。他提出了许多有用的方法和技巧，如使用“透明度”和“热力图”
等工具来帮助人们做出更好的决策。作者还强调了选择和后悔的问题，并提供了一些策略来帮助人们避免后悔和
错误的决策。这也是一种慢思考的方式，当前不管是基于RAG还是Agent中的反思都有所体现。
第五部分：“自我”，作者探讨了自我和思维的关系。他介绍了情绪对思维的影响、自我控制和欲望的作用，并强
调了自我认知和情绪管理对人类成功和幸福的重要性。作者还讨论了自我和共情的关系，并提供了一些建议和方
法来帮助人们更好地理解和掌控自己的思维和情感。
总体来说，《思考，快与慢》是一本关于人类思维和决策的重要著作，它深入探讨了人类思维的复杂性和多样
性，并提供了许多有用的方法和技巧来帮助人们改善思考和决策的效果。它不仅适用于个人，还适用于组织和社
会，并对当前人工智能认知领域为人们提供了更深入的理解和认识的一种可能。
从《思考，快与慢》这本书所阐述的内容可以看出，其中不乏一些观点，为当前的LLM推理应用甚至是人类认知
模式给出了一些指引和洞察，也正因为此，前OpenAI雇员Andrej Karpthy与去年5月份在微软Build大会演讲后半段
中，首次提出了系统二思想运用于ChatGPT深度推理的一些场景，并提出了当时应用ChatGPT在一些深度推理、
反思以及自我认识方面的局限。如Andrej Karpthy在会上发言提及：

“基本上，这些Transformer就像标记模拟器。它们不知道自己不知道什么，它们只是模仿（预测）下一个标记；
它们不知道自己擅长什么，不擅长什么，只是尽力模仿（预测）下一个标记；
它们不反映在循环中，它们不检查任何东西，它们在默认情况下不纠正它们的错误，它们只是对标记序列进行采
样；
它们的头脑中没有单独的内心独白流，它们正在评估正在发生的事情；
特别是如果任务需要推理，不能指望Transformer对每个标记进行太多推理，某种形式上必须真正将推理分散到
越来越多的标记上；
例如，不能向Transformer提出一个非常复杂的问题并期望它在一个标记中得到答案。（用于计算的）时间不
够；「个人见解：本质上，复杂类问题或需在模型进行训练任务过程中的样本不足或为零导致的泛化能力不够或
无法完成对其中pattern的泛化学习」
这些Transformer需要标记来思考，我有时喜欢这样说；
这是一些实践中运作良好的事情：例如，可能有一个few-shot prompt提示，向Transformer显示它在回答问题时
应该展示其工作，如果您给出几个示例，Transformer将模仿该模板，然后它就会在评估方面做得更好；
此外，您可以通过说“let's think step by step"从Transformer中引发这种行为，因为这使Transformer变得有点像

展示它的工作。
而且，因为它有点进入一种显示其工作的模式，它会为每个标记做更少的计算工作，因此它更有可能成功，因为
随着时间的推移，它的推理速度会变慢
...”
针对上述LLM当前存在的问题，前OpenAI雇员Andrej Karpthy也是在那次微软Build大会演讲中首次提出了「系统
一 · 快思考与系统二 · 慢思考」的不同认知模式，并通过列举COT和当时刚刚发布的TOT(本次演讲的一周前)运行
方式，提出需要对模型生成内容进行反复采样，并得出最终“答案”的可能这一本质。同时Andrej Karpthy也列举了
AlphaGo比较酷的策略引擎中所隐含的MCTS的过程。
大家看到这里，不知是否也逐渐意识到了这种系统二·慢思考似乎与AlphaGo训练机制或者说与RL的训练逻辑有着
一些比较深刻的底层联系，我想这也是我当时选择以LLM与RL融合为出发点，逐步探究系统二·慢思考的本质逻
辑，再到世界模型构建的可能途径，最终通过AI4S，突破科学领域突破，激发LLM更深层次潜力的最初原因之
一。
在接下来对「系统一 · 快思考与系统二 · 慢思考」的持续探寻中，我想先为大家分享一下我在接触到Andrej

Karpthy那次对外演讲的前后，自己在快·慢两种思维推理模式的逐步探索、反思、洞察...的这一连串的思考经历与
过程记录，如下：
【友情提示】下面的内容记录在叙述形式上有点碎片化，且由于是按照时间线进行记录，难免会造成一些在行文
整体结构上混乱，因此如下内容请大家谨慎阅读，如遇不适，请快速跳过。不过还是希望跳过的伙伴能够反过来
在对如下过程记录进行散文式阅读，因为毕竟在字里行间中隐含着很多本文的核心思想的由来和提示，甚至是非
常核心的内涵见解。
【2023.5.25】关于人类思考模式COT与ChatGPT推理模式两者间的思考（Andrej Karpthy演讲分享前一周）
COT的中间思考模式或确切的说思考链路，是否能优雅的平滑嵌入到LLM自回归式生成当中来？方法是怎样的？
LLM的自回归的网络结构是否可行？是否存在更加匹配的网络模型结构更适合推理链路的嵌入或整合？除了模型
结构外，要达到这种目的，如何找到完备的训练方法和目标、如何寻找适合的训练任务和与之匹配的训练环境，
如何构建匹配的数据样本或数据分布？甚至是否会存在一种全新的推理链范式？就像人在有些时候进行深度慢思
考过程也不完全是现在这种类似LLM的自回归的多个简单直觉交互式或提示过程。
其中的关键点在于：“如何优雅的平滑嵌入”，将思考链就像COT中的prompt方式或in context learning模式那样，

在模型的神经网络隐层中自行模拟COT的过程，而不用其它的额外的提示输入的方法。
有趣并有意义的是：如果上述可行，那意味着模型在学习过程中也能将不同领域的更加抽象的推理模式进行泛化
掌握，从而实现将复杂而抽象的数学抽象知识或思维方法快速迁移到物理、化学、生命科学等学科领域。
延展：是否可采用类p-tuning，零/小样本学习方式或RLHF进行构建这种长推理链的任务模式并对LLM进行基于
系统二·慢思考的训练？亦或者是还有其它的任务构造和训练方法？这里面可能考虑的关键点在于①训练任务的
构造以及与之关联的外部环境的模拟？②训练任务所囊括的数据的多样性以及数据某种程度分布的全局性（全局
性指：便于囊括更加多样、完备的推理链模式，因为这里有个假设：不管是推理模式还是思维模式，会存在对多
个任务的多种模式）。
顺着上面的思考路径，昨天读到了一篇基于LLM生成事件schema模式的文献以及一偏论证RLHF质量与数量及模
拟人类构建RLHF机制的文献，产生了延展思考：对于泛SFT或者是指令微调也好（这是未来两种优化模式），
基于LLM隐含了大量复杂而抽象的知识的前提下，在pre-training 和 SFT两者间未来如何取向统一与平衡的目
标，即是否存在一种趋势或模式：【预训练尽可能广和深的学习到复杂抽象知识（或者叫模式），SFT更多承担
领域表象知识】又或是反过来，能够想到的是：预训练可能承担学习深入复杂更加抽象的知识更优，原因是：他
的泛化与迁移能力更便捷和优雅。
【2023.5.30】基于今天OpenAI联合创始人Andrej Karpthy（截至本文发稿已从OpenAI离职）在内部演讲的报
告内容：
1. 提到的人类快思考和慢思考：基于这一问题，作者举了个长链思考的问题（两个州的人口对比输出的人的内心
思考路径vs模型预测下一个标记的模式），这里给我的第一个启示是：未来是否会出现一种新的长链推理范式，
在RLHF层，在其中过程中人们或机器通过标注反馈多种模式，构建模型的推理步骤或思考路径决策（与之形成
对比的是现在这种看似简单粗暴、通用表象的next token预测，当然这不是绝对的，因为NLP符号包罗万象，其
为符号化到token化形成了囊括真实世界在概念或理念世界：出自柏拉图《理想国》的一一映射）为表征态进行
对应的慢推理模式训练，NLP的符号化与推理步骤和思考路径的符号化对比也许是一个更精细、更丰富且的符号
表达集合，且包含了推理步骤和思考路径的符号化表征（除非推理路径会思考决策无法用NLP符号化模态生成或
表达），顺着这个思路，也许针对模型在推理复杂问题的粗粒度可解释性也将在这种新的范式中解决。另外，
Andrej在文中所说的基于提示的长链思考的人类系统二也很有启发，他是基于prompt工程来进行任务的拆解，但
这里会出现另外一种看似完全不同的思路：基于AlphaGO的强化学习MCTS。还有一个思考就是通过RLHF简单
粗暴的训练TOT（思维树），因为思维树的生成意味着能带来更多抽象的特征识别或模式识别。即，能不能找到
一种能让其自动学习处理思考的范式-如可以沿着系统一的模式进行step by step的延展。以及这种本质上是否是
一样的呢？如将系统二像系统一一样建立起模型训练学习到推理的端到端统一范式？还是说系统一与系统二本质
上完全不同？
2. 没有进行RLHF的基础模型生成内容的多样化思考：①可能人类感知世界，理解世界，生成决策就是一个大的
斗状形状，上面提到的生成决策其中的经过RLHF后的一类可能是抽象能力，当然随着不同RLHF机制，会有不
同的能力与抽象能力并列；第②个思考是：在生成（输出侧）可能对RLFH之前的基础模型会有更多想象不到的
价值，因为基础模型熵大，融合了更多知识和元素（处于上述提及的感知+理解世界这一阶段，其实最开始的输
入熵是最大的，中间层经历了一些熵减，毕然会损失一部分熵，但这种损失也是一种智能的过程，是否也是不可
避免，毕竟又跟后面的决策有关），回过头来说：基于RLHF之前的基础模型的经过一定抽象和总结的多样化输
出是否会为最终的chat模型（即RLHF之后的模型）提供更多prompt或COT呢？是否是一种新的模式或范式呢
呢？ps：针对这一段的思考，在「上篇」结尾处”传统模型AI与LLM模型在任务相关要素及特征空间上的形象对
比“的图示及对应的解释中进行了更进一步的思考修正和调整说明。
【2023.5.31】今天清晨接着昨日人Andrej Karpthy内部演讲内容，在上班途中想到的几个点：
①这个世界中是不是只有人类那样的系统一和系统二的两种思考模式？有没有额外的第三、四种思考模式？如果
有，它们是什么样子的？为什么有？如果没有，为什么没有？系统一和系统二就能代表思考或认识模式的全部了
吗？为什么？
②如何将抽象的这种思考推理链的”知识“在某种隐式的模式下进行表征和激活，如在LLM的跨多层Transformer到
next token predict中表征，如在模型推理过程中将模型中所蕴含的知识和模式【定向或精准】激活或泛化出来？
是否可行？或者说是组织出来？当前看可以将prompt作为一种手段，难道只有prompt这一种手段吗？其中的知
识和模式仅仅是碎片化不可单一解读的编码，但又蕴含着知识，钥匙则是这种语言符号化表征组织方式或者说是
某种Xi→Yj（Xi为输入token序列，Yj为输出token序列，也可表示为推理链tokenize）的多种模式的映射构象集，
会有不同的组织路径或组织模式（以信息论中的理论来看，看似是一种信息熵减的过程模式），取决于模型内部
神经网络的信号传导路径（神经元正向计算）。
③想到论文摘要作为输出，论文原文作为prompt，需求作为输入，构建RLHF是否是一种可行的推理思维链熵减
模式？
④能否尝试构建一种训练推理一体化范式：模型会自己遵循某种方式建立长链思考范式，神经网络标记预测是一
类思考模式（对应系统一），连续prompt是另一类思考模式（对应系统二），两种方式是否可优雅的融合？还有
没有其他思考模式？
⑤或者说更进一步的，现在的pre-taining+SFT+RLHF是否是一个面向TOT的合理范式吗？应该不是，他只更适
合系统一，系统二应该有别的E2E范式，taining+SFT是粗暴的嵌入（学习）各种具象抽象支持，RLHF是浓缩，
熵减的生成；亦或是，TOT本身就不存在TOT E2E的这种范式。有几种可能的上述解决模式：（1）基于模型网
络结构的改造，（2）基于分片监督训练任务的，（3）？？？
⑥解决上述E2E TOT的技术路径可能需要采用某种技术手段，做出模型在transform网络结构推理层面的改良或
替代，以模型参数的足够容量和灵活性对标取代采用prompt提示输入的效果，当然前面我们提到这种模型中参数
的改变变量与prompt输入的变化变量在数学变换本质上可能是一直的，在数理运算逻辑上存在较大的差异。之所
以提出⑥这一种可能，还是因为基于NLP这种通用，普遍性符号化表达的多样性与开放性。
【2023.6.1】
接着昨天的思考，针对于系统二的E2E的COT或TOT，如果是以LLM当前这种自回归的开放符号表达形式即
tokenize下完成推理的，冥冥之中其与当前ChatGPT系统一的LLM模式在生成上本质是一样的，无非是生成的
复杂度会更高，带来的模型训练参数，或中间隐层及输出层的熵的量更大。本质上，可以把模型中间神经网络层
·NN中的隐式推理模式统一为tokenize·标记化，底层神经元的正向传播计算本质上都是某种复杂程度的数学变
化，比如傅里叶变化或更进一步的希尔伯特空间坐标变换或其它..
【2023.6.2】
针对E2E第二系统推理模型网络结构的设计，可能需要依据直觉经验或稍加理性（类似理性洞察）对网络结构进
行设计与调整，lora也好，MOE也罢，甚至在muti-head层进行改良，使得针对关键token的关键组合被模型有效
捕捉到并传递或扩散到多层或更宽广的神经元上。同时，训练时任务形式的改进（非预测下一个token的方式）
是否也可以更好的满足对系统二E2E的推理呢？这里为了方便读者阅读，补充一个非当时即当下撰文思考的内
容：即sora的扩散模型·diffusion model是否是一种合理的针对系统二·慢思考过程表征的模型网络结构的改良
呢？后面将会为大家举一个近期的采用扩散语言模型进行E2E链式思考推理的论文「Diffusion of
Thoughts:Chain-of-Thought Reasoning in Diffusion Language Models」。
【2023.6.7】关于知识增强与E2E·COT深度推理的本质洞察所带来的探索与思考
沿着前几天的E2E 系统二·慢思考的逐渐理解...
①看到大模型在医疗场景的对齐所采用的知识增强模式，似乎洞察到了一种不同以往精细化知识增强（比如
Baidu Enire系列的多任务知识增强）的一种粗暴式知识增强模式；
②这种知识增强模式与类E2E·COT本质相同，即E2E·COT本质在做对齐时也是一种知识的增强，并将知识融合
嵌入到模型网络参数中，接着又深入思考了下系统二·慢思考的这种知识增强范式中所隐含的内涵，如模型参数
量（宽度和深度），模型参数所嵌入的知识内涵维度、抽象层级、知识映射或关联的粒度以及不同于表象的这种
知识增强，或叫“内涵增强”？这部分是否需要再拿海量预料预训练还是需要在RLHF阶段进行人类强标注呢？前
者（熵增）可能提升的空间在于更多知识的潜入，后者（熵减）体现在抽象能力的归纳，但在某种系统二的深度
推理模式下，这种抽象能力的归纳又会激发出更多的信息熵（生成丰富的知识），因此是不是关键环节就在于这
个深度推理链上呢？ps：同样，针对这一段的思考，在「上篇」结尾处”传统模型AI与LLM模型在任务相关要素
及特征空间上的形象对比“的图示及对应的解释中进行了更进一步的思考修正和调整说明。
另外一方面，回归到in context learning和模型SFT两种本质推理范式上，E2E深度推理某种程度上是实现了自动

参数激活代替了外界人工定制的prompt工程，当然这种自动参数激活可能也需要某些更深层次隐含的提示或
input。
回过头来总结一下前面的E2E深度推理模式的意义：通过模型的感知激活，能够对思考链进行上面所说的深度思
维路径增强，而不用人工去工程化地定义一些思考模式，思考范式，思考步骤，思考循环，这些都是模型参数在
其中E2E过程中自动激活或扩散完成的，甚至模型在进行E2E训练中，结合input，prompt，output会自动学习这
些隐含的抽象模式，而这些高度抽象的思考模式内涵可能是人类无法理解、逆向的、即AGI(通用人工智能)甚至
ASI(强人工智能)的一种路径。当然这里也有许多不小的挑战，就是如何构建一个有效而美丽的训练任务范式，
除了现有的SFT，RLHF外，是否还有其他学习范式，包括解决如何将推理模式通过学习潜入参数，学习过程是
完全E2E的还是分阶段的，训练数据集与RLHF的差异有多大等等。
总结一下：
本质上的生成输出层的熵增熵减平衡问题；
深度推理模式E2E学习问题和必要性问题；
In Context Learning与SFT在本质上的一致性问题；
基于In Context Learning与SFT的本质一致前提，才可能有深度推理E2E的实现可能与意义。
延展：试想一下为什么GPT5没有安排排期呢？确实是GPT4已经对表象知识掌握的足够多了吗？如果是的话，
那个双向漏斗图(自己之前在纸张上随便图画打的一个草稿，见下图)是不是得调整成枣核状？大模型在预训练阶
段实现的是更多表现知识的表达嵌入，需要更深层的网络以及每层更宽广的参数，而在RLHF层则是包含两种推
理模式：①抽象归纳层，②基于①的生成式小漏斗。
【重点思考结论&假说】所以，是不是上述E2E深度推理的模型构建重点在于类RLHF上的改良，形成①+②这种
E2E模型网络结构的创新改造，比如在②中通过类attention机制，将①与多层预训练层进行拼接。
【重要内涵补充】：上述第二系统的基于E2E的深度思考链的真正内涵在于模型是否能一次性的给出通过模型参
数端到端深度推理的实现，以等同替代于COT或TOT的那种分片或分段式的不断补充prompt以通过指令input方
式行程的最终生成结果（答案），即万物皆可NN参数化，比如简单的基于表象知识的参数化，抽象内涵的参数
化，甚至如这里的连续深度COT+prompt参数化，不同的参数在不同层进行激活和关联影响，比如在n层参数中
激活了针对这一任务的某个思维逻辑，而这个思维逻辑本身作为与任务描述的输入又会激活下一层更深层的逻
辑...以此类推
【2023.6.8早】关于E2E · 系统 · 慢思考的本质洞察
模型在生成结果前的深度思考链（当然这种思考链亦是模型生成的结果）与中间的模型参数隐式动态传播感觉是
相关的（可以说是真实世界事物或知识->模型参数的映射·本质是将物理世界的规律通过多种复杂且匹配的数学
变换进行模拟），生成的内容蕴含了知识推理的过程，因此针对多样化的生成结果可以反馈给模型参数推理模
式，比如COT，TOT，反思、引入知识嵌入动作，这些本质上等同的思考模式，都可以通过SFT或最终的类似
RLHF机制（或者是某种RL模式？）将上述多样化的内涵思辨型知识通过训练参数反馈更新到模型参数当中来，
使得模型本身除了具备表象知识外，还具备深层次的内涵抽象推理性知识或模式。我想做到这一步才能说AI模型
向人类认知又迈出了关键一步吧。当然这种模式是否也可以形成强AI的一条路径呢？
回顾前不久OpenAI联合创始人Andrej Karpthy的报告，不管针对COT还是Self-consistency，甚至是TOT，又或
者是plug-in这些长思考的模型推理认知模式，在其报告中都没有体现出这种E2E的思考，不知原因在哪里还是说
他们是说破不到破，闷声憋大招的节奏？呃...这倒符合他们的一贯CloseAI的风格...
基于上述本质问题的思考，OpenAI可能会对当前系统一思考模式的chatGPT进行升级和迭代，形成面向系统二
的E2E模型学习构建GPT的第二范式，也许会产生类似之前的Prompt learning，in-context learning，
instructGPT，SFT，RLHF等一系列新的创新涌现。
同时，回归本质问题，只要模型参数容量足够大、计算范式足够匹配、训练任务足够贴切，原（信）则（仰）
上，模型是可以容纳编码并解析生成包括COT、TOT、Self-consistency、Knowlege-Enhance一切事物的，因为
NLP is everything-NLP目前是最优的多样化符号表达形式，即：NLP可以对诸如COT、TOT、Self-
consistency、Knowlege-Enhance这些抽象概念进行形式化符号表达及生成，既然生成了，就意味着思考了，即
在模型中进行多层神经元参数激活及信号传递了。
【2023.6.8晚】关于AGI的E2E长推理的继续探索
①上接前文，这种E2E系统二类人长链推理模式是否也是一种折中，他生成的推理链，归纳链，反思链等是否是
推理得出答案的客观必须在的一环呢？有没有其它思维模式（非人类或超越人类现有认知模式）或根本不存在这
种长链模式的存在呢？而上述这种存在是否可以通过另一个完全E2E的的方式通过超大样本，超大多样性的推理
任务样本数据仅通过输入和输出将中间的非或超人类推理模式硬拟合到模型参数中呢？！
②可否将反思等规划模式转为化某种模型网络结构，实现E2E呢？如反思后发现自己没有理解问题或无法做出应
答就不去答，而模型又会强化这部分能力让模型换一种思路去努力应答，并在反思中，通过第三种思路去印证。
③【阶段性总结】：感觉我所理解的上述E2E更多是体现在让模型中的参数或神经元真正的按照推理链扩散或被
激活起来，实现模型网络结构中的参数更加复杂的多级模式计算（数学变换），而COT，TOT，autoGPT，
HuggingGPT，plugin更多是在推理形式维度上生成单层维度（这里的单层级维度本质也是推理深度：因为在模
型网络结构参数中实际上是多级的·因为毕竟是DNN嘛，，但这种的特征层面的多层级没有涌现出推理中也许没
有学（泛）习（化）出复杂而抽象的推理逻辑的多级映射模式）。即推理真正的在模型参数的正向传播中涌现
出隐式抽象长链推理。
【2023.6.9】关于E2E·系统二训练过程的延展思考
上接昨天8号晚上思考的神经元多层级推理映射的内涵，有三点想法再进行一下理解剖析：
①本质上，当前的基于系统一的LLM的某种程度的单层级推理映射更多是粗粒度的特征匹配映射（Simple
Pattern），比如红的-火焰，蓝色-大海，而上述思考的E2E·系统二是采用更精细化、深度的多层级抽象逻辑推理
（如COT/TOT/*OT）的映射拆解，即将推理模式的映射等同于某种特征映射，本质上跟上述特征类型映射一
致，都是映射，将两种不同模态形式化符号表达merge到一起，因此要实现E2E的学习，在预训练上首先可能需
要建立这种多层级、精细化tokenize样本，以进一步学习掌握这种通用的精细化逻辑推理层级。同时，在SFT
上，亦需要进一步熵增这种深度多层级精细化表达；
②另外，昨天思考的生成COT/TOT等显性的这些中间逻辑思维链是否作为在训练时从输入到输出的中间必要环
节中，是否可以完全进行E2E从输入到输出结果，使得COT/TOT等思维链隐含在神经网络结构中的一种训练范
式是否可以这样：第一步先准备精细化多token映射数据样本集，用做对通用思维链的抽象特征学习；第二步：
限定模型中某些参数（这里的意义在于限定最基本、最抽象的通用思维模式），使用其它粗粒度映射样本集进行
FT，这样是否就可以在模型推理中实现了基于隐性神经网络参数表达dw多层级信号传递连续精细化思考路径过
程？同时还具备了多样性任务的适配，并且降低了精细化数据标注成本。
③针对现在的prompt提示词的单跳激活（第一系统）推理模式，当换了一个提示词，就会在模型网络中实现参数
激活扩散的范围性转移，但这种转移是以prompt作为输入为提示发生偏移的，其中并没有体现出在模型神经网络
结构中神经元的多层级推理链激活传递范式，而可能只是实现了多抽象层知识表达的一种推理传递，虽然这种知
识特征层级的多跳信号激活传递可能也是与推理链多跳本质相同。

小漏斗图
↑ 以上是我在接触到Andrej Karpthy那次关于ChatGPT应用和技术展望的内部演讲内容的前后，自己在快·慢两种思
维推理模式的逐步探索、反思、洞察...的这一连串的思考经历与过程记录。这里要感谢一些能够坚持看下来这篇颇
有Long Context的文章的小伙伴儿，确实也是希望通过这种Long Context的呈现，通过分享给大家在去年中我对
「系统一 · 快思考与系统二 · 慢思考」的内心探索历程，能够更好的向下启发接下来本小节第一性原理的核心观
点。
在进入基于第一性原理的核心观点探索之前，正好于近期阅读到了两篇个人认为比较有代表性的关于E2E建模系统
二·慢思考推理模型的论文（终于:），借此也分享给大家：
其中一篇是香港大学发布思维扩散DoT：Ye, J., Gong, S., Chen, L., Zheng, L., Gao, J., Shi, H., ... & Kong, L.
(2024). Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models.
https://arxiv.org/pdf/2402.07754.pdf
这篇论文应该正好赶上了近期火爆的rosa借助采用diffision models的思想，代替传统LLMs AR的方式的尝试，接下

来在这里简单介绍一下这个模型所采用的方法：
随着扩散模型因在视觉领域的成功和相对于自回归模型的独特建模优势而在文本处理中引起了兴趣，有很多研究
者也提出并尝试了基于扩散模型的一些看法和实践，如Gulrajani & Hashimoto 强调了扩散语言模型中的规模化法
则，Ye展示了扩散模型在经过指令调整和规模化后能够处理复杂任务。因此，接下来的一种尝试变成：扩散语言
模型能否也利用CoT风格的技术来获得增强的复杂推理能力？
因此作者提出了思维的扩散方法（DoT），一种为扩散模型量身定制的固有链式思考方法。本质上，DoT逐渐更新
表示隐藏空间中思维的一系列潜变量，允许推理步骤随时间扩散。从方法论角度来看，DoT与最近提出的隐式CoT
方法有相似之处，后者通过跨transformer层学习隐藏状态中的思维，以提高自回归CoT生成的时间效率。CoT、隐
式CoT和DoT的对比示意图如下图所示。

在实践中，DoT在每个扩散时间步t迭代地对数据点施加高斯噪声，其中t从t = 0（最少噪声）运行到t = T（最多噪

声），然后训练去噪模型从噪声数据中恢复干净数据。为了针对复杂查询，DoT不使用基于梯度的分类器引导，而
是使用无分类器引导训练和采样去噪模型，以提供更可靠的控制信号。

DOT的流程如上图所示。受到扩散模型在文本生成中成功的启发，作者探索它们在特定任务中的推理能力及其相
对于自回归模型的潜在优势。作者首先观察到Plaid模型中默认的基于梯度的引导无法进行精确的条件设置，因为
模型不能完全恢复每个条件token。这在数学推理中尤其重要，因为它期望基于问题陈述中的确切token（例如，数
字）进行推理，而不是更紧凑的梯度信号。为此，作者在Plaid的微调过程中采用了DiffuSeq风格的无分类器条件
设置。这产生了DoT的原型，其中所有的推断都是通过一次性的逆向扩散过程生成的，所有条件token都被固定。
具体来说，在训练和采样过程中，问题上下文与理由（链式思考推理路径）z0 = EMB([s; r1...n])被串联起来，且
部分噪声仅施加于理由部分zt，保持s作为条件锚定。通过多步去噪过程DoT从扩散模型的内在自我修正能力中受
益。为了进一步提高自我修正能力，作者设计了一个计划采样机制使得在训练阶段暴露并纠正自生成的错误思
维。具体地，对于任何连续的时间步s, t, u，满足0 < s < t < u < 1，在训练阶段zt是从q (zt | z0)中采样的，而在推
理过程中则是从q(zt | fθ (zu; u))中采样的，其中fθ是一个重新参数化Eq[z0|zt]的去噪神经网络。这种暴露偏差可能
会阻碍模型在生成过程中从错误思维中恢复，因为模型fθ只在从标准数据扩散的zt上训练。为了缓解这个问题，对
于时间步t，作者随机采样一个之前的连续时间步u ∈ (t, 1]，并执行模型前向传递以获得预测的z0。然后采样zt以
替换损失计算中的常规值。与自回归模型的计划采样相比，DoT中的这种机制帮助模型考虑全局信息从错误中恢
复。
同时，作者进一步提出了DoT的多通道（MP）变体，称为DoTMP，该变体以一个接一个的思维范式生成理由。这
种方法分离了多个理由的生成，并引入了因果归纳偏差，使得后续的理由可以在生成过程中被先前理由的更强条
件信号所引导。具体来说，在第一轮中，作者通过模型生成第一个理由r1。然后将r1与s作为条件[s; r1]连接起来，
通过模型采样得到r2。通过多次迭代，可以得到最终答案。
作者首先从头开始训练DoT以完成数字乘法任务作为初步调查，如下表所示。可以观察到，ChatGPT和精简版的
隐式CoT模型都无法达到100%的准确率。GPT-2可以通过微调达到高准确率，但在CoT过程中牺牲了吞吐量。有
趣的是，从头开始训练的DoT能够在将扩散采样步骤设置为1的情况下，保持显著的吞吐量同时达到100%的准确
率。随后作者从头开始在GSM8K上训练DoT，但只能达到5.61%的准确率，这低于GPT-2的微调版本。作者认
为，这主要是由于从头开始训练DoT时缺乏预训练的自然语言理解能力。这就是为什么作者开始通过使用预训练的
扩散模型进行进一步的微调探索。

接下来作者将DoT扩展到预训练的扩散语言模型Plaid 1B并在更复杂的推理任务上进行评估，即GSM8K。在下表
中，与不使用CoT/DoT相比，自回归模型和扩散模型在使用CoT或DoT进行微调时都显示出显著提高的性能。这表
明增加的计算（推理时间）带来了实质性的好处。DoT，与隐式CoT有类似的公式，但展现出比它更显著增强的推
理能力，可与微调CoT模型的GPT-2相媲美。多通道DoT表现略优于单通道版本，而后者更高效。

在微调Plaid 1B时，作者探索了几种替代方案并进行了如表3所示的消融研究。使用GSM8K增强数据集继续预训练
Plaid 1B并使用基于梯度的条件进行推理，对于在下游任务上微调扩散LM来说不是一个好选择，因为推理任务需
要更具体的指导。

我们看到，这篇文章采用diffusion的思想对问题上下文及链式思考推理路径z0 = EMB([s; r1...n])进行过程学习采
样，并在其中通过一些tricks进行施躁和降噪的梯度修正。
Think：也许未来的E2E系统二·复杂推理模型会将当前LLM这种自回归模型被扩散模型（源自于CV领域的扩散
施噪方式）所取代？如diffsion拥有着先天的某种优势？又或者AR与Diffsion两者间实现某种程度或技巧上的平滑
结合？再或者后来随着理论的进一步探索，人们发现两者间本身就存在着底层本质逻辑的一致性，无非是根本的
底层不同的数学变换模式或方法上的差异？即跨transformer的中间隐状态表征与高斯施躁到降噪的数学变换具有
相同的本质普遍性？比如AR在一直狂奔于scaling law下，其跨transfomer层的表征也将逼近diffusion式的推理。
另外一篇是斯坦福大学和Notbad AI Inc的研究人员开发的Quiet-STaR，让AI学会“思考”再“说话” Quiet-STaR:

Language Models Can Teach Themselves to Think Before Speaking.https://arxiv.org/pdf/2403.09629.pdf
值得注意的是，这篇论文所提出的模型名字非常有意思「Quiet-STaR」，似乎预示着什么..论文中的Quiet-STaR
是以一种通用和可扩展的方式学习推理的语言模型。与上一篇不同，论文中将更多精力聚焦在推理任务数据上而
非E2E模型结构或训练方法上。通过在多样化网络文本中隐含的丰富推理任务的范围上进行训练，而不是狭义地专
门为特定数据集进行训练，Quiet-STaR 指引了更健壮和适应性更强的语言模型的方向。论文的结果证明了这种方
法的潜力，Quiet-STaR 在提高下游推理性能的同时生成了具有质量意义的理由。论文相信这也开启了许多潜在的
未来方向 - 例如，可以尝试对思考进行集成，以进一步提高对未来token的预测。此外，如果语言模型能够预测何
时思考是有用的，例如通过在预测之前放置混合头，那么预测的混合权重可以用于在生成过程中动态分配计算资
源。
通常，语言模型可以通过对问答数据集进行采样推理来自行训练其推理能力，即尝试回答问题、在推理导致正确
最终答案时对其进行训练，然后重复该过程迭代解决更困难的问题。然而，从策划的问答数据集进行训练限制了
推理的规模和普遍性。问答数据集，尤其是高质量的数据集，需要经过深思熟虑的策划，并且天生只能涵盖一部
分推理任务。因此，论文扩展了STaR - 语言模型不是学习在特定任务(如数学问答)上推理，而是训练语言模型生
成推理来帮助它从大型互联网文本语料库推断未来文本。因此，论文允许语言模型从语言中存在的多样化任务中
学习。这建立在当前语言建模范式的一个基本直觉之上，即"语言模型是无监督的多任务学习者"。因此，与STaR
一样，论文利用语言模型现有的推理能力来生成理由，并使用基于REINFORCE的奖励对语言模型及其生成的理由
进行训练。论文将这种技术称为Quiet-STaR，因为它可以被理解为"悄悄地"应用STaR，训练模型在说话之前思
考。
Quiet-STaR 包含三个主要步骤(见下图)：
1.并行理由生成(思考)：在输入序列中的n个标上并行生成长度为t的r个理由，得到n × r个理由候选项。论文插入学
习到的<|startofthought|>和<|endofthought|>标记来标记每个理由的开始和结束。
2.混合理由后和基础预测(说出)：从每个理由之后的隐藏状态输出，论文训练一个"混合头" - 一个浅层MLP，产生
一个权重，确定理由后的下一个标记预测logits应该与基础语言模型预测logits相结合的程度。由于引入了理由，这
种方法在微调的早期阶段减轻了分布偏移。
3.优化理由生成(学习)：论文优化理由生成参数(开始/结束标记和语言模型权重)，以提高使未来文本更可能的理由
的可能性。论文使用REINFORCE根据理由对未来标记预测的影响为理由提供学习信号。为减少方差，论文应用教
师强制技巧，在损失函数中包括不仅预测思维后的标记，还包括预测之后的标记的可能性。

总的来说，Quiet-STaR的流程如下:在每个标记后生成理由来解释未来的文本(思考)、将带有和不带有理由的未来
文本预测混合(说话)、然后使用REINFORCE(学习)来学习生成更好的理由。论文将Quiet-STaR应用于Mistral 7B，
使用了网络文本数据集OpenWebMath和Colossal Clean Crawled Corpus。论文发现，即使没有针对数据集的微
调，Quiet-STaR也能改善zero-shot直接推理能力，在CommonsenseQA上从36.3%提高到47.2%，在GSM8K上从
5.9%提高到10.9%，并且这些改善随着语言模型内部思维中使用的标记数量的增加而持续增加。最后，论文定性
地研究了生成理由中的模式。PS：文献中还包含多种训练采用以及RL过程中的很多技巧，如”并行生成“、”混合残
差头“、”非近视评分和教师强制“、”RL优化推理链“..由于篇幅所限不详细展开介绍。
问题：论文发现平均来看，语言模型预测任意token的能力几乎没有改进。但是，当论文可视化相对改进的分布
时，发现在更困难的token上改进是不成比例的。这反映了一些文本token实际上更难，而且受益于更深思考。论文
试图提供一些关于改进发生的token类型的见解。换句话说，虽然在示例中思考似乎有助于许多token，但检查表明
它不成比例地有助于预测回忆相关信息有用的token，比如适用定理的名称或证明下一步的开始。值得注意的是，
这与 Prystawski 等人（2024）提出的框架非常契合。
另外，论文中尝试了验证性任务，这项任务的几个方面都有可能引入不稳定性。首先，也许最重要的是，生成的
思考（或思考token）的效用是思考到其对语言预测的贡献的映射的函数。论文探索的一个解决方案是使用
Gumbel-Softmax 技巧和一个直通估计器，但是在许多连续的 softmax 操作中，论文观察到梯度消失。基本上，
从 LM 输出到下一个token预测的映射越复杂，论文观察到的不稳定性就越多。另一方面，当论文在没有任何插值
的情况下训练，即消除混合头并仅使用思考后的语言模型预测时，模型很快学会简单地忽略思考（论文没有看到
任何下游任务的泛化
最后，论文总结到：虽然思维链提示和论文的方法之间存在自然的相似之处，但它们本质上是正交的。在思维链
中，用户会积极提示模型“大声思考”，否则使用其普通的生成分布；而 Quiet-STaR 则会在每个token处安静地思
考，生成的推理链的分布被其有效训练。这两种方法很可能是互补的。例如，在可能提示语言模型使用思维链的
情境中，没有任何阻止论文允许模型在输出每个token的推理之前进行思考。论文进行了一个初步实验，表明内部
隐式推理可能使模型能够生成更有结构和连贯性的思维链。
通过对上述两篇论文的核心观点进行总结，我们发现其两篇论文中都在尝试将中间推理过程与原始问题上下文进
行联合采样，以对其隐空间状态的中所表征的推理(思维)的潜变量进行学习，即“过程学习”，不同的是两者所采用
的模型结构及数据样本各有差异和独特性。同时，为了更深入的探究「系统二·慢思考」认知模式的本质，而不应
仅仅停留在对思维的表征学习和其潜在变量对思维的简单表示这一静态表象层面，如这里提到的表征学习和潜变
量的表示在认知推理过程中是如何体现和运用的？因此，我们需要跨越「系统二·慢思考」的这种更长程的认知推
理过程的中回归第一性原理，寻找在两篇论文中的各自所尝试使用的创新训练方法和学习模式，与「系统二·慢思
考」这种认知能力在底层有着哪些本质的联系。
如在香港大学发布思维扩散DoT中所提及的：「本质上，DoT逐渐更新表示隐藏空间中思维的一系列潜变量，允许
推理步骤随时间扩散」中，其「潜变量」「隐藏空间」「思维」其对于模型系统二的推理或思维路径的背后更底
层的本质是指什么？
为了更进一步探索背后的本质问题，为了方便大家回顾阅读，我将本节开篇的我的那条知乎回答再为大家贴到此
处，避免大家频繁滚动页面对照。
知乎我的回答：
如题，我觉得人类的思维很有可能是基于此种tokenize的预测模式的，只不过tokenize的结果及过程形式会有一
点不同，但回归第一性原理来思考，本质上是一样的。
另外从系统①（快思考）与系统②（慢思考）两者之间的内涵上来看其实也能侧面映射出当前LLM与人类的思维
内涵存在着某种联系。任何模型在进行推理时，本质上都是对从一个状态（特征/过程）空间映射到另一个状态
（决策/动作/甚至慢思考中的规划与反思…）的符号化（离散表征）或向量化（连续表征）空间，而这种映射其
实模拟一下人类思考的思想试验也是类同的，而LLM模型网络内部和有研究表明的人类大脑，即其实亦是从一层
神经元到下一层神经元的映射（神经元信号激活），比如这种映射可以表征对状态特征的提取，事物的具象到抽
象，状态所对应的决策/行动...而这映射两端的不同空间表征是可以任意的且客观存在的，且随着人类行为的反馈
亦机器的监督学习来建立关联的，当然这取决于“大自然”赋予人类的偏好决策与行动空间，就像人类赋予机器对
应的任务监督模式与决策空间。
因此回到上述系统①和系统②，系统②相对于系统①，其实本质也都是同一的，只不过系统②在神经网络激活
（信号正向传播）过程中，经历了不同的映射层，甚至在LLM所驱动的Agent中的规划，反思，如COT，TOT，
GOT，AOT，BOT，XOT等策略过程亦是属于中间过程的不同表征空间的一种映射，只不过在映射的过程中通
过in context上下文给予了提示（比如COT的step by ste..），而这种提示prompt有可能会激活（这里的「激活」
在两者思维或运算推理过程中的数学本质上即是指将输入侧的信息向量化表征通过模型正向传播计算即数学变
换）人类大脑神经元和模型中间网络神经元的信号传递的路径（当然路径是丰富多样的，并且模型或人类大脑在
过程学习训练中可以呈现出上述泛*OT的这种模式）。
因此，对于上述所说的in context learning也好还是prompt leaning也罢其实对于人类和机器的推理与思考或直觉

来说也是某种程度的同一。
当然LeCun提出了另外一种实现像人类智力能力的AGI-世界模型，强调模型在中间抽象层的构建，但我始终认为
通过采用有效的训练与学习方法，模型在网络空间隐层中，是可以习得这些抽象概念的逐层映射推理表示的，关
键采取什么样子的训练方法以学习到这种更抽象的类人能力甚至是超越人的抽象模式，也许LLM+RL强化学习是
一条路径，包括引入相应的过程奖励函数，以及构造足够抽象可形式化推演的模拟环境以进行有效的self play
（如围棋或数学证明）。→ 这里又会遇到另一个问题：这些虚拟环境与真实世界环境的空间可表征有多大差
距，是否能通过某种方法进行逼近？当然即便无法有效完美逼近，在虚拟环境中所习得的抽象推理或决策（本质
上是上述说的模式映射）亦可以通过迁移实现模型的的泛化。
如上所述，在回答中的前半部分，表述了对「系统二·慢思考」的一种认知推理形式上的阐释，对应的思维扩散
DoT论文中所提及的「潜变量的表示或表征」，实际上体现的是在推理过程中位于不同状态空间的中的隐状态的动
态过程映射，且映射两端的不同状态空间所表示的状态内涵包罗万象，如模型输入侧的像素空间、符号序列空
间，模型隐空间层的不同特征变换空间、决策动作空间、推理思维空间，再到模型输出的结果侧的tokenize表示
空间，其中在模型中的多个隐空间层，在形式表示上存在着对多层特征的抽象与变化过程，以及对多步骤的思维
推理模式的演绎过程。而这种过程或模式，进一步抽象为更为简单的数学形式化表达则即是：建立潜变量对神经
元信号状态(w·h)的抽象表示，在推理过程中进行数学变换操作，最终通过变换计算得出最终的结果，即形成了潜
变量对某种状态空间状态的表征这一动态过程，如下图所示：

因此，结合本节内容逐步探索和进一步阐释，站在回归第一性原理思考的基础上，到了为各位伙伴们尝试针对
「系统一 · 快思考与系统二 · 慢思考」这一概念进行本质性总结的时候了，我的阐释内容如下：
本节核心要点归纳与阐释：
「系统一」和「系统二」对于模型在推理过程中的底层映射与变换逻辑其本质上是相同的，其中「系统一
」中所囊括的基本的事物的特征、知识和规律与「系统二」中所囊括的任何推理过程、思维路径和算法策
略等均是可以被模型统一编码（或压缩）到多个状态空间层间形成状态组合映射与动态变换当中的，即模
型统一实现对「现实物理世界空间」和「思维概念空间」到「模型隐状态空间」的表征。模型在推理过程
在概念上体现出模型结构中不同状态空间层的「映射」，在数学上映射的过程即对应的数学「变换」，在
形式上体现了多层神经元间的信号传递。两者在表象上的差异体现在模型训练的任务目标以及模型训练的
数据分布构象的不同，如「结果」→「过程+结果」在训练目标和数据分布的差异。
在这里，如果上述本质的描述是能够自洽且被泛化的，那就意味着模型均可以通过建立这种空间状态映射机制，
采用数学上的变换方法，对真实世界所存在的任何事物、现象甚至是人类脑海中的概念、逻辑、思维等进行某种
程度的模拟，就像通过我们人类大脑或心灵一样，尝试用感性、理性的不同方法去思考、认知这个世界，将世界
装入我们的内心世界并以此进行决策和行动。--- 这也是我在知乎上回答那位题主时当时内心的写照，也越来越感
觉AGI离我们将不再遥远。
另外，在系统二的推理模式中，我们似乎能够找到将无限的”推理“压缩进模型内部即通过在模型的神经网络隐层中
进行推理模拟，但这里我仍感觉我们应该进行稍微谨慎一点：这难是AGI最终实现的的其中一条路径吗？细想一
下，人类的思考模式似乎也不是这种通过复杂的内在推理模式，但需要指出的是对于AI模型来说确实可以通过超
过人类的这种内在的压缩或推理，在大部分领域超越人类，如当前LLM对世界通用知识的压缩某种程度上已经超
越了人类。而无限压缩的这种模式在宏观的认识模式上似乎又存在着很多不同，如人类的推理和反思也是不断与
外界交互反复多次的通过大脑神经皮层中的神经元进行信号传递激活并最终形成推理链完成推理的，这里与Agent
的机制还是很类似的，因此，是否未来AI模型在通往AGI的路径中也需逐渐探索并最终达成模型E2E深度推理与类
Agent推理机制的某种融合和平衡呢？
当然，本篇文章也希望能够为大家提供一种方法，以回归第一性原理的理性思考，去找寻事物间的一些本质普遍
性与联系，在其中跑通底层逻辑的一些自洽性，这样在此基础之上，能够对不管是算法研究人员进行模型开发与
建模，数据挖掘人员进行大规模的数据分析，认知应用产品设计人员来说，都能够更好的快速洞察到适合的探索
路径中来。
本节尝试为各位读者阐释我对「系统一 · 快思考与系统二 · 慢思考」的理解和浅见，即便我们洞察到对于模型来

说，似乎找到了对任何世界事物的压缩、编码或者模拟的可能，但即便如此，在通往AGI的路途中，也依然充满着
一些荆棘和挑战，除了上述所说的E2E深度内化推理与Agent机制平衡的不确定之外，比如在接下来，对于需要考
虑如何找到一个适合于模型的学习或训练方法，如何设定一个适应性、匹配性足够灵活的任务目标，如何发现或
构造如此完备的数据样本在分布和构象上使得与上述中的那些学习方法和任务训练目标实现优雅的匹配也是十分
重要的！接下来我将在下一个小节「RL与LLM融合的本质&阐释」中与大家一起进一步进行探索这方面所涉及的一
些核心本质问题。
RL与LLM融合的本质&阐释：
在上一小节中尝试的探索了「系统一 · 快思考与系统二 · 慢思考」这一本质问题，自己也越发感觉AGI的进一步可
能走进现实，但仍然面临着诸多挑战，包括如何找到一个完备的模型训练目标和用于模型学习所匹配的数据样本
构象。
我们不得不将思路牵引至AI发展历史的长河当中，向上追溯人类在AI领域的发展历程的探寻中来，尝试发现一些端
倪。当然这里肯定不会为大家展开全部的历史脉络，而是带着本节所抛出的问题，尝试发掘在AI历史长河中容易
被人们所忽视的一些关键节点。当然，对于庞杂的历史，作者的阅历和认知能力肯定都是十分局限的，且接下来
一些历史上梳理与见解也会以自己的阅历经验和主观的感受去进行回顾，势必会忽略一些非常关键且具有里程碑
意义下的历史内容，这里先跟大家抱个歉，确实能力所限，不过也会尽量在过程中尝试将自己的一些观点和想法
带给大家，希望能为大伙也提供一些方面的补充。
首先，按照历史发展顺序，站在人类AI发展史上，我想先从三个世纪之前的近代古典主义哲学蓬勃发展的时代说
起，可能有人会问：欸？人工智能的开始场景不是都应该从古希腊哲学时代的亚里士多德的三段论来说吗？这里
我要为大家解释下，我主观认为的三段论带给我的启发感觉更适合从逻辑学的源头开始追溯的好，当然逻辑本身
也与认知或智能有着千丝万缕的联系，但我还是倾向于将其定位在演绎法下的逻辑推理的范畴，作为一种符号化
推理的视角看待。当然在本篇全文的「下篇」中，当然还是会追溯到古希腊哲学世界，寻找有关智能的一些起源
和给我们的启示，就不在本小节中展开了。
是的，既然从三个世界前的近代古典主义哲学时代说起，我想有大部分读者已经结合要讨论的主题猜到那一位哲
学巨匠了：伊曼努尔·康德（德文：Immanuel Kant）。

那么之所以要从康德说起（当然这里还是夹杂着作者自己的一些主观认识和感情色彩），主要是来源于其代表作
品《纯粹理性批判》、《实践理性批判》、《判断力批判》三部曲，其三部作品对于其在哲学认识论上的思想包
含如下内容：（提示：考虑到不同小伙伴的阅读体验和感受，下面一段可自行省略..）
“纯粹理性教导人们人类知识是以经验为基础的，但实践理性认识到在心灵中还存在一个先验的观念，不受经验
的支配，它假设了人类自由、上帝和不朽这些观念一因此，他一边区分唯物主义和唯心主义的不同，一边又试图
找到两者之间结合的纽带。”
“纯粹理性”是指独立于一切经验的理性，“批判”是指对纯粹理性进行考察。康德为该书冠以这一名称，是为了弄
清人类认识的来源、范围及其界限。
康德的批判哲学的认知论：对人类认识能力本身的这种分析就进入了认识论的领域，因为这种分析本身已经是一
种认识。康德在《纯粹理性批判》中所提出的认识论的总问题是：先天综合判断是如何可能的。在他看来，一切
知识都基于判断，因为单个的表象或概念是无所谓真假的，只有把两个表象或概念连接起来形成一个判断（如
“这朵花是红的”），才有真假问题，才构成知识。判断可以分为两大类：一类是分析判断，一类是综合判断。所
谓“分析判断”是指这样一类判断，判断的宾词原本就蕴含于主词之中，实际上是把早已蕴含在主词之内的东西解
释出来而已，如“三角形有三个角”。显然，这类判断具有普遍必然性，但由于宾词只是对主词的解释，并没有增
添知识的内容，因而并不是严格意义上的知识。所谓“综合判断”是指这样的判断，宾词并不包含在主词之中，是
后来世人通过经验加在主词上的，如“物体是有重量的”。显然，这类判断能够扩展世人知识的内容，帮助世人认
识世界，因而只有综合判断才是真正的知识。综合判断虽然是知识，却不一定是科学知识。“综合判断”还可以划
分为“后天综合判断”与“先天综合判断”。只有“先天综合判断”既能够扩展世人的知识，又具有普遍必然性，它才是
最终使世人能够不断获得新的可靠的科学知识的根据。
...
因为篇幅原因不为大家做过多的关于康德的哲学思想的展开，这里之所以将康德引入到本节作为追溯人工智能历
史长河中的第一站，正是因为康德在上述三部曲中所体现在人类对认知论上的统一以及指导性见解，也为欧洲哲
学史上带来的重大转折意义。
我们发现，在其对人类认知和知识的思考中，会为很多当前人工智能和认知科学发展带来借鉴意义：
如：他认为人类先天地具有这一套认识形式，才能把感觉材料组成知识。如果没有这套主体的认识形式，我们就
不可能得到普遍必然的科学知识，也就是说不可能认识客观世界。这个看来似乎是荒谬的先验论，实际上比旧唯
物论从哲学上说要深刻，从科学上说要正确。近代科学已经证明，认识并不象旧唯物论所理解那样，是一种从感
觉、知觉到概念的循序渐进的单线简单过程。不是那种被动的、静止的、镜子式的反映。
在这里，我们发现他将认知与获得知识紧密的联系起来，我们试想一下，这里的“认识形式”是不是有一种感觉指向
了AI的模型训练过程，即模型如果理解世界、认识世界，而“知识”则对应于人类在理解了世界的知识后，所能进行
的推理、决策和行动。在这里，虽然对于神经网络模型来说，“知识”看起来并没有在认知推理过程中间呈现出一种
符号化形态，其主要是融合在网络模型中的正向计算过程中，但并不能说“知识并不存在”，模型也可以通过生成能
力侧面呈现出在推理过程中所运用的知识，就像人类在进行某类复杂任务的决策过程中，会运用先验知识辅助判
断。
又比如，在康德的关于批判哲学的认知论思想中，其认为“一切知识都基于判断，因为单个的表象或概念是无所谓
真假的，只有把两个表象或概念连接起来形成一个判断（如“这朵花是红的”），才有真假问题，才构成知识”。在
这里我们是否可以试着对比一下AI在进行监督学习训练过程中所使用的Xi-Yj的数据样本集，其中Xi到Yj需要建立明
确的监督信号，在康德表述中体现为这种“判断”。
我想无论当时康德的认知论思想对于人类开始现代认知学研究以及人工智能领域研究起着多大的作用，但至少也
能够为先贤们建立一定的指引和信念的吧，作者本人在阅读康德的理论时，能够明显的感受到在某些深入的思考
中，能够洞见其哲学思想的影子且甚至能够有些时候让我幡然醒悟，如康德的”先验辩证论“思想中所提及的知识
的”彻底性“上，也为我对先前和当下对AGI的认识和定义，有着不一样的思考。
当然，在康德的整体关于认知论的宏大思想中还有诸多观点，由于篇幅和主题原因就不在这里为大家一一呈现
了，包括对于“先验感性论”、“先验分析论”、“先验辩证论”、“实践理性的共设”等内容。大家如果感兴趣的话可以自
行从其它渠道进行阅读和学习，个人也非常期待能与大家针对这一领域进行更多充分的互动和讨论学习。
接下来，让我们加快点速度，将时间推移到近现代-20 世纪 40 年代和 50 年代，其中计算机科学的发展为人工智

能的研究奠定了基础。随着计算机技术的进步，人们开始尝试使用机器来模拟人类思维和解决问题的能力，并找
到了人工智能的真正的机器载体。
在近现代几十年中，人工智能发展迅猛，从1950年英国数学家阿兰·图灵（Alan Turing）提出了著名的“图灵测试”
算起，到1956年的达特茅斯会议，从符号主义学派的专家系统到链接主义学派的感知机和神经网络，从深度学习
的高速发展到当前的大语言模型的爆发式发展，在这短短几十年之间，人工智能发展经历的三起二落，以及技术
突破所带来的阶段性不同程度的爆发。在快速发展的过程中，我们当然也无法遗忘在过程中众多巨人所为未来开
创的具有重大意义的里程碑事件。

在这里我试图列举几个我认为为当下人工智能发展带来重大意义的事件和技术：
1、20世纪50年代，纽维尔和西蒙开发了一个名为“逻辑理论家”（Logic Theorist）的程序，该程序能够证明数学定
理。此后，他们又开发了“通用问题求解器”，用于解决各种问题。
意义：符号学派的代表，其开发的“逻辑理论家”（Logic Theorist）的程序，在当时为形式化证明打开了一扇大门，
70年后我们发现，当前LLM在尝试进行的复杂数学定理证明是否又能与其建立某种更深层次的联系？

2、20世纪60年代，美国心理学家弗兰克·罗森布拉特提出了感知机模型，这是一种具有学习能力的神经网络。
意义：连接主义学派的开创，为DNN这一意义深远的学习范式开启那扇窗。

3、AlexNet
意义：AlexNet的出现标志着神经网络的复苏和深度学习的崛起。

4、AlphaGO战胜李世石
意义：
在围棋这一复杂领域AI第一次战胜人类，神来之笔37步，也预示着在其它的复杂领域上AI在与人类的智能对比的
进一步突破的可能
强化学习（RL）大放异彩

5、ChatGPT
意义：就不多说了，ps：这里之所以放IIya的照片是为他对GPT所做的贡献，对AGI的敬畏以及对AI未来安全的谨
慎态度的敬意。

以上列举了作者本人认为的在人工智能发展历程中，有重大意义和影响的一些事件或技术突破，当然，为了聚焦
到我们本小节的「RL与LLM融合的本质&阐释」这一本质问题的探索，从题目中我们也可以发现结合当下LLM这一
技术路线发展面临的瓶颈似乎与RL多少更加相关一些。（这里并不是说之前的感知机、AlexNet、Transformer甚
至是Logic Theorist并不重要，他们都为当前的LLM的发展打下了非常坚实的基础）
正如在「上篇」中的开头部分，我们从Alpha系列开始讲起并在「上篇」中的中间部分详细对AlphaGO和
AlphaZero进行方法回顾，对Algorithm Distillation (AD)方法给我们的启迪所带来的进一步的探索和思考，以及介
绍了AMIE中所采用的基于self-play环境下的RL思想及内涵。我们现在似乎能够感觉到LLM与RL在当下与未来会存
在某种联系。
在「上篇」中的最后，我们尝试对LLMs的本质进行探查中，我们了解到最初的LLMs在scaling law下，最终突破了
临界点达到了能力的涌现，但这种自回归的序列标记预测的模式（AR prediction+tokenize），是否能够最终在更
多人类历史数据样本和进一步扩大模型参数并扩展算力的基础上突破新的瓶颈呢？在这里，我们发现出现了三个
方面的问题：
1、当前LLM似乎无法满足像系统二·慢思考那样，在开始进行next token prediction前，进行提前的规划或反

思，正如前OpenAI雇员Andrej Karpthy与去年5月份在微软Build大会演讲后半段中所说提及的那样：
“基本上，这些Transformer就像标记模拟器。它们不知道自己不知道什么，它们只是模仿（预测）下一个标记；
它们不知道自己擅长什么，不擅长什么，只是尽力模仿（预测）下一个标记；
它们不反映在循环中，它们不检查任何东西，它们在默认情况下不纠正它们的错误，它们只是对标记序列进行采
样；
它们的头脑中没有单独的内心独白流，它们正在评估正在发生的事情；
特别是如果任务需要推理，不能指望Transformer对每个标记进行太多推理，某种形式上必须真正将推理分散到
越来越多的标记上；
例如，不能向Transformer提出一个非常复杂的问题并期望它在一个标记中得到答案。（用于计算的）时间不
够；“「个人见解：本质上，复杂类问题或需在模型进行训练任务过程中的样本不足或为零导致的泛化能力不够
或无法完成对其中pattern的泛化学习」
LLMs对于系统二的局限性思考：
「自主模式下的局限性」：LLMs在自主模式下（即没有外部验证或提示的情况下）并不能生成可执行的规划。
即使是最先进的LLM（如GPT-4），在没有错误并达到目标的情况下生成的规划平均只有约12%是可用的。这表
明LLMs可能只是做近似的规划检索，而不是真正的规划。
「无法自我验证」：LLMs无法验证自己生成的规划，因此无法通过自我批评来改进。尽管有人认为即使LLMs不
能一次性生成正确的解决方案，通过迭代提示，它们可能会通过“自我批评”来提高准确性。但研究表明，LLMs在
验证解决方案方面并不比生成解决方案表现得更好。
「知识获取与执行规划的混淆」：有研究表明LLMs具有规划能力的论文实际上混淆了从LLMs中提取的一般规划
知识与可执行规划之间的区别。规划任务需要不仅仅是规划领域知识，还需要能够将这些知识组装成一个可执行
的规划，考虑到子目标/资源的相互作用。LLMs通常在提取规划知识方面做得很好，但这并不意味着它们能够生
成可执行的规划。尤其是超级复杂的规划由于LLMs本身这种next token prediction的局限，以及在pre-traning和
alignment方面对数据分布构建的挑战，使得很难完成复杂规划任务。
「对自我改进的误解」：有研究声称LLMs可以通过生成规划、自我批评规划然后使用这些规划来自我改进（例
如通过生成合成数据来微调自己）。然而，由于LLMs无法验证自己的解决方案，这种自我改进的方法实际上可
行性未知。
2、人类过去200年所积累的历史记录数据将会马上枯竭，届时将无法为LLM持续训练提供更多的历史数据，且即
便基于LLM构建了大规模稳健的数据飞轮反馈机制，恐怕在之上所反馈的可用于LLM持续训练的数据也远远无法
满足数量要求（因为在scaling law，训练一个更大的参数的模型则需要指数级倍数据样本量用于模型训练，同时
对算力需求也是按照数量级增长的，对于算力的需求增长又将会引来另一个要素问题：能源）。同时，Moonshot
AI杨值麟在近期的访谈中针对上述问题所给了一些看法和解释：
“AI 本质就是一堆 scaling law..今天能看到最好的模型是 10 的 25 到 26 次方 FLOPs 这种规模。这个数量级接下

来肯定还会持续增长，所以我认为算力是个必要条件，因为机器学习或者 AI 研究了七八十年，唯一 work 的东西
其实是 scaling Law，就是放大这几种生产要素。
你需要一个同时满足 scalability 和 generality 这两点的架构，但今天其实很多架构已经不满足这两条了。

transformer 在已知的 token space 符合这两条，但放大到一个更通用的场景，也不太符合。数据也是一个生产
要素，包括整个世界的数字化，和来自用户的数据。
现在“吃”的是 base model 的 scaling law，未来可能会去“吃”用户这个数据源的 scaling law。
因为其实 alignment 也有 scaling law，它肯定是可以被解决的，只要你能找到对的数据。AI 本质就是一堆

scaling law。
一个值得被 scale up 的架构是基础，这个架构首先得支持不断加入更多数据，然后数据才会真的成为瓶颈。我

们现在说的数据瓶颈，从文本模态上，2024 年就会遇到，但多模态数据的引入进来会把这个问题推迟 1-2 年。
如果视频和多模态的卡点解决不了，那文本的数据瓶颈就会很关键。这点上其实我们也有些进展 —— 如果限定
了问题，比如数学或者写代码，数据是相对好生成的。通用的问题现在还没有完全的解法，但是存在一些方向可
以去探索。
统计模型没有什么问题。当 next token prediction 足够好的时候，它能够平衡创造性和事实性。
到了 GPT-6 这一代，掌握合成数据技术的玩家会体现出明显差距。因为数据其实有两种，一种是做 pre-training

的数据，另外一种是获取成本更高的 alignment 数据。如果掌握了数据生成技术，alignment 的成本可能会降低
好几个数量级，或者能用一样的投入产生更大的几个数量级的数据，格局就会发生变化。
我觉得 2025、2026 年可能是很重要的 milestone —— 模型的大部分计算量会发生在模型自己生成的数据上。
26 年的时候也许模型用于推理的计算量会远远大于训练本身，可能花 10 倍的成本去推理，推理完之后花一倍的
成本来训练。会出现新的范式，推理即训练，而且这个推理不是为任何用户服务的，只为自己本身的合成数据服
务。
出现这种情况的话，能源的问题也解决了，因为推理是可以分布式的。而且它不违背定律，本质还是个能源守
恒。只不过我把计算范式改变了，让能源能够以分布式的方式解决。”
3、大家可以做一下思想试验，即便我们拥有足够多的历史数据，足够的算力以及能源基础，那么LLMs会继续在
未来几年scaling law下持续狂奔嘛？又会出现很多我们预想不到的智能涌现，最终达到AGI，甚至超过AGI实现
ASI？
Think：我想先为大家做一下这方面的思想试验，我在想很多RL学习中所运用的算法比如AlphaGO在围棋中的复
杂决策，是否能够通过在近乎无限的大量数据中习得泛化经验吗？当然如果数据确实是无限的，那么对于pre-
training来说其代价是否太高了？而对于alignment来说，则会面临数据alignment本身的诸多挑战，如：如何找到
完备的alignment的匹配的样本数据，alignment过程中的数据多样性的保障，合成数据看起来能带来解决上述两
方面的问题，但合成数据是否能在生成的数据过程中涌现出新的洞察或知识，以便在训练中被模型习得？
另外，对历史真实世界数据的采样，是否仅仅是学习人类过去已经先验并总结过知识并形成的最终文本表征的结
论，其对应的本质等价于这些知识或结论最终仍是来自于真实世界数据的的分布或构象上的表征，而这种历史数
据的分布或构象似乎无法通过模型的自回归生成式模式习得到人类在现实世界中未曾见到、更深刻的洞见以及新
的知识结构，似乎仅仅是对生成的语言分布概率做了重新排列或组合，并在这种重排列或组合的过程中反复利用
已经掌握的泛化能力进行表象知识的发现、探索和链接，从而扩展了某种维度的知识结构。
因此，这里我们是否也会回归到对pre-training与alignment的本质区别的思考？是否在两者底层对数据的洞察层
面上有着一定的内在联系？
针对上述三个问题，仔细品味之后，越发觉得三者之间背后有着某种隐含的联系，不知大家是不是也是这样认为
的？
首先，我们尝试将问题1和问题3合并一期来看待，针对问题3中所提及的那个“预想不到的智能涌现”，以及当我尝
试在做思想实验时体会到的AlphaGO所面对的复杂决策情景，再到alignment中所面对的一系列挑战等，是否可以
通过系统二·慢思考的方式得到解决？
通过近期在学术上的多篇论文前沿探索，结合早期关于COT、TOT、AOT、XOT等规划策略类思想并结合Agent框
架的理念，同时一些其它领域科研工作者使用GPT-4作为辅助工具对本领域研究探索及取得的突破，以及文章「上
篇」中开头部分介绍的AlphaDev模型来看，似乎系统2正在尝试突破解决上述问题3。
而在上一节「系统一 · 快思考与系统二 · 慢思考」中我们提到，系统一与系统二在本质上具有底层逻辑的一致性，

我们似乎有可能也找到不同于LLMs那种采用AR next token prediction的训练方法亦或不改变AR模式而对训练数据
的分布和构象进行调整以实现模型E2E自主复杂推理过程。但在这之前，我们当然也忽略不了一个关键的事情，即
在上一节中提到的「系统一与系统二两者在表象上的差异有可能体现在模型训练的任务目标以及模型训练的数据
分布构象的不同，「结果」→「过程+结果」在训练目标和数据分布的差异，即如何找到一个适合于模型的学习或
训练方法，如何设定一个适应性、匹配性足够灵活的任务目标，以及如何找寻甚至构造完备的数据样本在分布和
构象上使得与上述系统二中满足复杂长链推理的那些学习方法和任务训练目标优雅的匹配？正如杨植麟所说："只
要你能找到对的数据，AI本质就是一堆scaling law"。
我们发现上述内容也将问题2中所面临的部分问题联动了进来，即数据在scaling law上所面临的瓶颈。因此，当能
够采取某种方式解决问题1和2之后，其联动引发的对数据的资源重组、价值延展及要素定位有可能会进一步改变
当前的数据可用训练资源体系的现状。
因此，目标似乎变得逐渐清晰起来，我们要找到一种方法，为模型达到下一次智能涌现或者持续突破涌现的边
界，找到一个适合于这种模型学习或训练的新范式，设定一个适应性、匹配性足够灵活的任务目标，发现或构造
一个足够完备且可持续的数据样本体系使得在样本的分布和构象上与上述中的那些学习范式和任务目标实现优雅
的匹配。（前面高亮的这段话其实是提前向各位读者们明确出了基于第一性原理思考的可能的技术实现路径，如
果小伙伴们不是特别理解，下文的探索中将会为各位道出其缘由）
我们回到LLMs与RL上来，为什么要将LLMs与RL联系到一起呢？在上面问题3中，我们目前看到LLMs正在开足马
力将人类历史数据进行快速的学习（大规模pre-training+SFT），但可以预见的是这些全网开放数据将会被耗之殆
尽，那么下一步算力将会聚集在alignment层面上，我们知道ChatGPT在进行RLHF时，确实也耗费了不少成本和
算力（当然RLHF所消耗的算力与pre-training难以相提并论且RLHF更多是需要人类进行较高成本的标注且针对RM
训练才能work的）。
但即便如此，我们发现，从ChatGPT到GPT3.5甚至GPT4.0，其在深度逻辑推理、复杂计算、科研探索等领域仍
存在着较大的局限性，我的观点猜想是当时ChatGPT在进行最后阶段的RLHF时也有可能仅仅是在做一些通用泛化
上的alignment(通用泛化这里仅指在跨表象领域中的所提取出的某种维度的浅层共性Pattern)，如整体上基于QA交
互层面对生成内容的交互性、合理性、安全性、风险性等进行对齐，当然在对齐数据的标注筹备中亦是要体现更
加全面、多样化的场景通用性。
如在GPT-4的官方技术报告中我们可以得出（https://openai.com/research/gpt-4）：GPT-4 尽管功能很强大，但
它和早期的 GPT 模型有相似的局限性，有时候会虚构事实并作出错误的推理。大家在体验 ChatGPT 的时候可
能也发现了，它对稍微大一点的场景设计容易出现上下文衔接不上的问题。前几句回复还能保持和当前场景融
合，越到后面越会脱离当前场景做一些新的设计，并且这些设计并不符合当前的场景。OpenAI 表示，在每次迭
代中都会改进，这也是 ChatGPT 开放使用的意义，在训练中持续优化。这些问题 GPT-4 虽然没有完全解决，但
是相对于以前的模型，在我们的内部对抗性真实性评估中，GPT-4 的得分比 GPT-3.5 高 40%。

同时，GPT-4有时会犯简单的推理错误，这些错误似乎与跨多个领域的能力泛化问题相关，或者在接受用户明显
的虚假陈述时过于轻信。有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。GPT-4 也
可能自信地在其预测中犯错，在可能出错时不注意仔细检查工作。有趣的是，基础预训练模型经过高度校准
（其对答案的预测置信度通常与正确概率相匹配）。然而，通过我们目前的训练后过程，校准减少了。
因此，从上述内容中，我们也可以猜想GPT-4的能力似乎主要来自预训练过程，原因是更多的性能提升聚焦在很
多基准性能的评测上，如RLHF 并不会提高考试成绩这类基准。与之前的 GPT 模型一样，GPT-4 基础模型经过
训练可以预测文档中的下一个单词，并且使用公开可用的数据（例如互联网数据）以及我们已获得许可的数据进
行训练。这些数据是网络规模的数据语料库，包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛
盾和一致的陈述，并代表各种各样的意识形态和想法。
那么，我们如何找到一种方法能够再一次将GPT-4所面临的上述问题进行解决呢？这种解决方法是否还将遵循于
scaling law呢？看起来在pre-training阶段，随着历史数据资源的临界点的到来将会马上遇到scaling的瓶颈，那么
在做RLHF的alignment方面呢？RLHF与Pre-traning之间又有着怎么样的本质联系或差异呢？
在回答上述疑惑前，我们不妨先将LLMs当前所遇到的问题放一放（因为毕竟OpenAI对外的技术报告并没有非常清
晰的阐明其中的技术细节），转向RL上面，而且在RL与RLHF上似乎两者之间也有着一些联系。
在文章「上篇」中开头部分以及中后部分，我们针对Aphla系列和AMIE等模型进行了比较详细的技术拆解分析，
我们似乎能够隐约的得出一些洞察：
1. RL过程能够通过基于某一环境动态模拟（博弈/self-play）而产生新的数据样本，而这些数据正因为来自于某
领域内的模拟且模拟过程记录的意义局限性而没有被系统所大量的记录；
2. 正因为RL的这种学习机制，在学习过程中模型学习/压缩的知识形态（如围棋中的行动策略/代码逻辑/数学推
理..）更加抽象且在RL过程中时产生的中间数据记录表征与人类自然语言文本符号化表征分布有着很大的差
异；
3. 综合上述1&2的洞察，似乎能够得出，RL过程模型学习到的知识（这里指RL任务的特定策略、推理性知识
等）与以往从现实世界所记录的数据进行监督或自监督训得的模型所压缩的知识应该是弱相交的；
因此，依据上述三个方面的洞察或猜想，我们自然的将LLMs与RL想到了一起，用RL去进一步增强LLMs的泛化能
力与领域知识，但同时我们仍然会遇到另一个问题，RL与LLM看起来是两种完全不一样的训练模式，两者的结合
是否可行？如何去做？
再次回到文章「上篇」中，对于AlphaGO和AMEI模型的详细介绍中，我们其实已经能够找到RL与LLMs在训练过
程中的一些本质共性—均是对目标函数进行梯度求导，只不过目标函数的设计以及数据样本的构建来源与模式会
有一定的差异性，需要通过一些工程化的技巧去进行粘合，最好的例子就是ChatGPT的RLHF（RLHF本质上就是
一种简单环境模拟形式的RL呀，与传统RL形成略微差异或创新的是其中增加了额外Reward Model用于训练+判
别）。因此在ChatGPT发布后，通过其发布的公开技术报告中，包括模型训练的四个阶段：Pretraning、
Supervised Fineting、Reward Modeling、Reinforcement Learning（后两个阶段即是RLHF），通过分阶段任务设
定与对齐封装，最终完成对自回归（AR）模型+强化学习（RL）模型的融合训练与迭代，当然这里运用了迁移学
习

前面我们曾提及，“即便ChatGPT在进行最后阶段的RLHF时也有可能仅仅是在做一些通用泛化上的alignment(通用
泛化这里仅指在跨表象领域中的所学习到的某种维度的浅层共性Pattern)，如整体上基于QA交互层面对生成内容
的交互性、合理性、安全性、风险性等进行对齐。”可以想象LLMs最终阶段所采用的RLHF远远没有达到像围棋
(AlphaGO)、数学定理证明(AlphaGeometry)、代码策略(AlphaDev)等RL模型那样高度抽象泛化能力的学习，诚然
这也取决于其RLHF的思想还是基于符号tokenize在语言交互的范畴上来完成RL的，并通过额外训练一个Reward
Model来进行奖励的反馈（对于RL来说稍稍略显僵硬但实用，同时也受限于语言交互的tokenize的局限所致）
因此，除了上述RLHF基于语言交互的场景过程中内容生成交互性、合理性、安全性、风险性等考虑之外，为了进
一步加深模型复杂推理以及领域深度泛化能力的学习，相对确定的路径是建立LLMs与RL的对齐封装，这里会涉及
到数据tokenize描述的统一、self-play模拟的规划、以及相关Policy Network & Value Network & RM & Loss
Function的设计、随机搜索策略结合任务代价的考量等。
一些关于RL所涉及的基本概念就不为大伙不做过多介绍了，RL相关技术非常成熟且学习材料都很好获得，这里着
重强调一下与LLMs融合上进行self-play的模拟规划方面：
众所周知，RL在围棋和虚拟游戏场景下具有天然的适配性，取决于其封闭的模拟场景下丰富的可扩展探索空间及
有限且规范的行动决策规范，因此，这也意味着在RL训练时可以遵循着一定的模式即反馈机制来完成策略的持续
学习，当然在训练过程中也要着重考虑探索空间的大小以及行动决策的复杂性已采取一些搜索策略或网络结构的
优化及取舍。
但当将RL思想迁移至NLP场景时，我们可能需要重新反思并定义一下self-play模拟的边界以及空间探索及行动决
策的内涵，以便可以将思想灵活迁移并运用。如LLMs在RLHF过程中，单独训练一个RM进行判别来完成目标函数
的逼近，并基于人类少量标注并提示模型内容生成的方式完成另一种形式的对搜索空间的探寻采样（与self-play有
一些形式上的类似）。另外，在文章「上篇」中，我们所介绍AMIE是通过构建Muti-Agent的方式完成对self-play
场景的构建，并通过多角色交互探寻与反思的机制完成对场景的模拟，并将基于多角色交互生成的数据用于模型
下游的SFT，以学习长交互模式，即属于RLAIF。
另外针对问题1中关于系统二·慢思考过程中的长链推理，除了可以基于人类历史所积累的“慢思考”思维数据进行模
型训练以习得思维表征外，亦可以利用RL思想，将多步搜索探寻步骤纳入到模型训练过程中以表征过程决策。
但是，这样就结束了吗？远远没有..而且相信大家还会有如下诸多疑惑和底层本质问题的不解。
• 基于RL对LLMs的增强是否能够实现对最终模型泛化结果的性能保证？
• 如何对RL中的self-play模拟场景的规划体现完备性？RL的self-play在场景的广度和深度探索上的所容纳的数据
多样性如何保证？
• RLHF与RLAIF对于self-play
• RL在对齐pretrained LLMs之前，针对RL所涉及的领域场景和训练后泛化能力的预期及对LLMs的后RL效果如
何把握？
• RL是否能够做出对模型跨领域能力迁移的保障？有没有一些预评估策略或机制？
• RLHF/RLAIF对Pre-trained LLMs具体做了哪些目标的优化？Pre-training对于模型来说学到的是哪些知识？
RLHF和Pre-training有啥本质的区别？
上述问题尝试从两个维度的思考为大家提出一些思路，当然并不能完全彻底的解决上述问题。
1、首先是RL的这种self-play对LLMs所带来的价值意义与价值边界问题的思考
• 我们知道对于围棋和其它对弈类游戏的self-play内部中均有自己系统内的完备规则以及策略集合，而这些self-
play内与外部用于pretrain LLMs的大量历史数据(文本类数据)来说，直觉上两者间所蕴含的「泛化能力集」应
该有着很大的不同。因此，如果可以合理的将self-play所蕴含的泛化能力迁移到LLM中，将有效增强其领域泛
化边界。但我们判断在一个大的领域范畴中，比如数学形式化证明体系，其所包含的泛化能力范围及边界到底
能有多大上面可能会有不小的挑战，因为泛化能力当前很难采用某种形式化的手段进行洞察并有效表示，因此
我们可能需要通过其它如整体的策略集合大小、状态集合大小来进行某种估算。
• 另外，多个不同的self-play模拟空间中其各自的「泛化能力集」直觉上应该也有很大不同，因此在采用RL self-
play进行超级alignment过程中为了促进模型通用泛化能力的提升，应该进行更多self-play场景模拟构建并保障
多样化的数据alignment。
这里提出一个新概念和新假设，①新概念：泛化能力集，代表某一个领域的泛化能力的集合，泛化代表了某种现
象到概念的抽象，因此我们通常在掌握或能够利用泛化能力的意义在于，我们可以举一反三，即并能够针对看似
不同类型的问题，按照回归第一性原理的思路从底层逻辑上去归纳总结；②新假设：我们假设这个完整世界内存
在很多泛化性，而不同领域内的泛化性有相关性也有领域内的独立性。
• 不过也不排除领域内世界的泛化能力与领域外世界的诸多场景是重合的甚至是有着某种泛化依赖的，如比较特
殊的数学，我们知道数学的形式化证明体系，可以说对于物理、化学、生物等多学科甚至是多领域交叉学科背
后的理论都有数学方法作为基础支撑，同时其各自领域内的复杂计算和推理也都离不开数学的形式化证明体
系。因此，直觉上，数学应该是未来LLMs需重点关注学习的领域。这一点其实与人类也很相似 “一般数学好的
同学，理科应该都不太差”
• 前面我们有提到，ChatGPT所进行的RLHF本身其实也是一种简单形式的self-play（这种self-play在其中的模
拟环境对规则、策略和奖励所构成的反馈机制上，与传统大家所认知的RL self-play似乎有着感性的差异，是否
是有本质的差异不确定）。那么对于RLAIF来说，我们知道，之前我们所认为的RL之所以能够为LLMs带来增
强，主要是其所拥有的「泛化能力集」的差异化优势，如围棋中通过不断探索、试错（MCTS）来增强决策能
力，而对于RLAIF来说，如具体拿Muti-Agent举例，每个Agent在基于交互协作的环境中所生成的决策和内容
均是依赖于当前最优模型内在的知识和先验泛化能力(先忽略Agent对LLM的限定因素)，因此，这里会出现一个
问题：看起来RLAIF合成模拟的数据，并没有为LLMs进行下一步的alignment带来新的知识与泛化洞察能力的
提升，也就是我们前面所说的「泛化能力集」差异化优势。然而事情真的是这样的吗？有几个事情我们是能够
看到的：
• ①在Muti-Agent情境下，我们形成了复杂多轮会话以及协作行动过程，是的「过程数据」，是否意味着我们为
系统二进行有效大规模的过程学习提供了一条路径，虽然在Muti-Agent下，每一步agent的交互协作均是其背
后驱动的LLMs依据原有内化的知识来进行决策的，但我们发现通过多轮复杂决策生成的过程性内容记录，其
数据整体所呈现出的语言结构与模型之前用来进行预训练或SFT的数据样本的整体分布和构象有着较大的不
同，因此这种数据样本分布的不同对于模型来说也会必然捕捉到这种分布并加以学习，即过程学习，也是一种
新策略的学习；
• ②针对RL能否对LLMs起到增强和提升，主要取决于LLMs能否从RL过程中习得新的策略，新的策略的另外一
种判别就是其新策略的生成不依赖于历史数据样本以及模型依据自身知识和泛化能力推理生成的内容，即足够
新颖，如AlphaGO在训练过程后期就不会再依赖人类历史先前的棋局来进行参考，而是通过自博弈的方式快速
创新着子策略，并快速反馈奖励，而AlphaGO最终的目标是赢得棋局；因此，从另一种RL运行模式的视角完
整的来看，Muti-Agent在得到一个复杂的任务后（任务目标），是否每一次的Agent交互也是在像围棋着子一
样在进行策略的尝试与搜索（注意：而这种每小一步的探索或者尝试可能是依据于上下文背景或者子目标的，
而非整体目标！这意味着，从宏观目标上来看，这便是对于整体目标出现了新的泛化方向的尝试，不管这种未
知的泛化在未来期间所呈现的过程、形态是什么，这里的泛化导向因受muti-agent影响，应该是朝着多步骤决
策方向去的呼应①），而对于这个Muti-Agent来说，其最终奖励即是其最终任务结果达成目标。
• 可能有伙伴看了这里会有点绕或者困惑，稍微也跟大家解释下自己的看法：其实这里①和②本质过程是一样
的，学习目标也是一样的，所习得的中间泛化能力也是一样，只不过①是站在LLMs这种自回归式的过程学习
的视角上，将我们的注意力拉到了对生成的数据样本分布上来，而②则是从RL策略搜索的角度
2、RL中的self-play或RLHF或RLAIF等反馈机制对于LLMs alignment过程的本质探寻
这个思考其实在于探寻RL可能对于LLMs进行了哪些优化及改良，其中路径是怎样的且最优的呢？这个问题本身
属于一个在对齐领域的比较有挑战的问题，之前OpenAI在RLHF领域也没有分享更多的技术细节，因此在这里我
有一些不太成熟的想法尝试跟大家碰撞一下：
ps：不过还是要在这之前跟大家提前说下，下面的这段内容更多是针对上述问题偏发散一些的思考，对，即
Diffusion Thinking，因此可能就像Diffusion Modeling那样，过程中可能引入一些noise，不过我也会尽量控制
nosie的扩散分布并在最后强化降噪:)，如果大家这里读起来有些困惑，那绝不是大家的问题，而是在于我并没有
找到更好的方法进行表述，大家可以忽略这小段内容，直接跳到后面的结论性阐释部分。
• 如果RL下的self-play亦或者HF/AIF能够尽可能多的带给我们一些历史真实世界数据所没有的、未见的、新的洞
察或泛化的可能，那么alignment是会遵循scaling law的。尽管其中的数据也是AI合成的（也夹杂包含着模型本
身的知识，习惯和泛化性），但新的环境和在去做alignment的过程中也许会将领域的泛化性进一步增强而出
现领域内的“涌现”
• 换句话说，在真实物理世界中，泛化性（或抽象概念）本身也有数量，特性，囊括度，在真实世界的分布性等
特点的，因此分别在pre-training与alignment过程中，其实也是体现了两种对这个世界泛化性的学习（这种学
习也是在token化中完成对齐或映射的），而之所以现在的LLM需要在后边的环节完成RLHF或RLAIF，表明在
真实世界中这种人类历史所沉淀的文本符号表征即token的自然序列排列所体现的分布（训练后表现为常识性
或领域性浅层表象知识）比某种需alignment方式才能获得的泛化能力的数据分布相比太丰富了，或者说需采
用RLHF或RLAIF进行alignment的数据样本太稀缺了。比如生成内容的安全性，系统②的推理模式，复杂的数
学推理或自然科学的探索洞察即AI4S。
• 某种意义上来说，两种不同的token构象或分布，在更大的尺度上的目标逼近过程中（比如pre -training或
super alignment）其整体目标函数的差异会很大，而这也可能跟LLM的next token predict模式相关，换句话
说，将上述两种不同的token序列构象或分布形式化表述为拓扑图结构，即便在大比例token间的短跳是一致的
（这里的短跳一致指形式化表示为其中的一种AIF或self play下合成的数据因为采用pre-training模型生成next
token predict，在短距离的数据或token分布上不会有太大差异），而如果这种AIF或self play合成的数据样本
远小于真实世界样本，那么基于整体数据分布或构象对于整个token分布态会有非常的大差异，因此其在训练
过程中所习得的泛化模式也是不相同的，即整体目标差异导致的泛化差异，即构象/分布不同，目标不同。另
外，这种长尺度整体的分布结构可能是由多个小的泛化结构组合，激活，嵌套，放大，抑制而来。
以上，通过回顾AI的发展历史，理清了AI的发展脉络以及每个关键里程碑的意义，通过尝试剖析以ChatGPT为代
表的LLMs的技术内涵和思想，发现LLMs当前的局限以判断未来潜在的能力涌现趋势和实现路径，同时隐约间发
现以Alpha系列为代表的RL思想在解决专业性领域复杂问题体现出的深层泛化能力的惊艳，并尝试以第一性原理
为思维方法，通过一步步对当前LLMs通往AGI可能路径的阻碍、差距等进行探索、分析，我们似乎能够基于本质
上的洞察捋清一些内容和思路，并最终在下方进行一些总结和阐释：
本节核心要点归纳与阐释：
存在一个大的开放的tokenize的世界。
在这个世界中存在着可用token表征的多种模式（pattern）的泛化映射结构或者可以等效于tokenize世界
中存在着自然合理的token间映射组织的分布（distribution）或构象（conformation）。
★ 这里所说的token间映射的分布或构象在感觉在数学上暂且可结合当前微分拓扑学和数据科学中的数据
流形分布或流形嵌入等相关理论来进行抽象表述。因为涉及到一些比较底层的数学抽象概念，且理论的完
备性似乎还在途中，这里就不为大家进行详细解释了，相关理论内容大家可以自行搜索作为补充理解，或
私下交流探讨 · 这部分相关观点大家也可以参考顾险峰教授关于所创立的跨领域学科「计算共形几何」中
相关的理论描述。不过可以稍微延展一点的思路是：是否可以将深度学习中关于数据科学中的数据流形分
布概念扩展到认知科学中的认知流形分布呢？其实上面所描述的pattern的概念即是对认知分布的一种表
达体现。
而这种distribution或形式化出的pattern则通过tokenize表征了这个世界的现象和规律。
这个规律包含了在人类看来简单似直觉的可通过系统一快速映射的pattern，也囊括了复杂的需通过系统
二逐层映射的pattern（但这里需要注意，在现实世界中这种复杂的逐层推理映射也可以强行转化提炼成
直觉的单层pattern映射，但猜想这样的pattern在世界中的泛化性分布可能会受到改变和影响）。
简单的pattern包括语言的问答交互，交互过程中的直觉反馈，直觉包括简单的结论性先验知识问答，生
物的行动条件反射。
复杂的pattern包括数学、物理学、生物学的定理证明，科学的pattern(理论)发现，复杂的工程开发，复
杂的生物过程和思维过程...等等还有太多太多。
因此当前LLMs也好还是RL本质上都是在tokenize的世界中理解这个世界的distribution和探索世界的pat
tern。
需要说明的是：这种pattern是否有限或无限现在无法判断，但从直觉上来感受应该是极大的。
因此LLMs在进行pre training时对数据的pattern探索所面临的scaling law相比这个世界上更加广泛的pa

tterns来说感觉并不算什么，因为LLMs这种自回归（AR）的语言模型在尝试通过学习全人类历史数据做
pre training时探寻的更多是那些简单的pattern（当然这也并没有说明这些人类所沉淀下来的历史数据都
仅仅暗含一些简单pattern，更多原因是取决于next token prediction的自监督模式以及所考虑的高昂的
数据标注成本没有将其中所隐含的深刻内涵pattern所挖掘出来），而对于未来的alignment来说则是囊括
了更广泛的tokenize世界的探索和对齐，以找到更多的pattern，因此我不知IIya所提及的超级对齐以及杨
植麟所认为的alignment的scaling law是不是也在隐含预示着这些，甚至关于Q star很多的传言和猜想（
真的很想看到它当前的进展以及底层的训练机制和模式）。
而RL似乎提供了额外的一种模拟和数据记录模式，通过self-play和奖励反馈，能够系统性的逐步探寻tok
enize世界中隐含的未发掘pattern。
当然，这种tokenize世界中的pattern泛化映射，某种程度上来说也是对现实物理世界的一种形式化模拟
，在某些复杂领域与数学公式、物理定理，化学方程式如出一辙所体现出的内涵表征如出一辙，甚至是用
另一种形式化符号加以表征，因此，我认为，未来的LLMs+RL+...是最终那能够构建起世界模型并通往我
们当前所普遍认为的AGI的。

如上图所示，一个流形（manifold）代表一个拓扑空间S

DDL中的分类问题涉及的流形探寻轨迹
在本小节中，我们尝试针对「RL与LLM融合的本质&阐释」，洞悉了通过将LLM与RL在「任务构建、目标学习以
及在进行监督学习过程中对数据样本分布或重构」等方面的一些内涵关联，并尝试性的提出了「RL与LLM融合探
寻AGI」的路径可能以及两者间在底层的本质逻辑，但这里我们对AGI的理解和定义可能仍需要持谨慎的对待和持
续探索的态度。比如回到LLMs的自回归（AR）生成式（Generated）的这一模式，是否能够达到人类处于不同环
境所天然具备的主动思考、主动推理甚至是行动上的条件反射？这种主动性是内化在LLMs当中的还是在其之外
的？如果是内化在LLMs之中的，那么如何体现或者建模这种主动性行为？如下是一些延展性思考：

本图来源：Generating meaning: active inference and the scope and limits of passive AI
Think：针对主动性/自主性问题，LLM的「自回归（AR）生成式（Generated）的这一模式」在未来是否可采用
diffusing的这种方式或采用跨多层transformer去表征模拟主动推理中的“主动”，因为“主动”本身的内涵在某种意义
上也是属于推理过程范畴的。如果是可能的，那是否可以通过对主动和推理的表征去模拟人类主动推理这一行为
模式？
ps：加上了“主动”是不是就会出现了另一个「系统三·主动思考」？
世界模型的内涵：
提到「世界模型World Models」，我想先跟大家从概念上的澄清。在Sora刚刚发布不久时，除了能够输出高质量
的视频之外，OpenAI 更是将 Sora 定义为一个「世界模拟器world simulators」。在这里呢，我往常直觉上理解的
「世界模型World Models」与「世界模拟器world simulators」还是有一些区别的，但并没有做对这两者比较深入
的思考。
直到Sora的发布，我才聚焦到这两个概念上来。在我当前的理解上，这两者应该是指的同一个概念，均是对「客
观真实物理世界做时空映射」，但是，这里所说的映射的内涵和形式方法方面会有差别。
如在内涵上一种是对于客户世界模拟底层的物理定律及原理、化学反应、生物互作甚至是抽象概念；另外一种是
针对一些表象特征，比如热效应的火焰、爆炸以及流体力学的水流的形态等，这类模拟通常不会进行对深层次的
分子动力学进行模拟，因为微观分子动力学的复杂性可能无法采用当前的模拟技术准确映射和计算，但会取其
中，选取其它维度特征进行表象模拟，如形态、趋势等，当然这类模拟在对应物理世界的映射真实性上存在差
距。
在形式和方法上，按照不同的模拟复杂性，人们通常也会采取不同的模拟方法，一种是构造物理规律模型 · 力学模
型，使用数值计算的方法，求解动力学方程等；另一种会通过类似神经网络的方法通过其中的梯度下降在神经参
数中隐式地学习物理规律表征-如Sora。

另外，这里所阐述的两种形式方法其实是对应传统符号主义学派和连接主义学派的不同人工智能行行动路径，同
时，也对应到上面模拟世界内涵的两种方式（底层规律/表象特征）。
我们看到前一阵子业界围绕Sora是否是「世界模拟器world simulators」争论很多，包括LeCun、nVDIA高级研究
科学家 Jim Fan等顶级科学家以及什么智库总编的相关研究者，甚至不久前人民大学围绕“Sora到底懂不懂物理世
界”组织了辩论赛。如大家所见，业界以及学界已经围绕Sora进行了很多探讨或争论，并每方都提出了一些自己的
富有洞见的核心见解，相信各位读者小伙伴也都对两方的各自主张以及主张背后下的理论依据有了自行的判断，
因此，在这一节当中，我就不再将围绕Sora和世界模型World Models的技术内涵方面进行过多分析和阐述了，还
是一样，基于对上述我对「世界模型World Models」的理解，我先抛出我的一些观点和想法，然后在后面摘取一
些各位研究者的一些阐述要点加以解释说明，最终还是希望大家能最终回归本质，思考背后底层的逻辑。
我的观点：「我还是认为Sora经过最终不断的进化迭代，是能够实现最终无限逼近对物理世界的模拟（
映射）的，与人类认知世界的方式本质一样。」

依据如下：
首先我们回到本节开始我对「客观真实物理世界做时空映射」上来，在这样的一个认知前提下，我想不管是两种
分别对物理世界映射内涵的差异（表征物理规律vs表征表象特征）还是两种对映射形式和方法上的差异（物理模
型vs神经网络），背后可能的本质是一致的。
这里大家可能会提出不同的观点：“在之前的观点中你不是说过Sora经过最终不断的进化迭代，是能够实现最终无
限逼近对物理世界的模拟的”吗？既然是逼近那就是近似，怎么能严格的说这种“”神经网络通过梯度下降在神经参
数中隐式学习物理表征“”与“”基于仿真物理规律真实模拟“”背后的本质是一致的呢？
我的解释是这样的：
首先大前提是我们讨论的范畴都是“模拟”，“模拟”的范畴意味着存在着并不是真实的，因此我认为无限逼近的这种
说法与模拟本身不冲突。
另外，大家可以想象一下，基于符号主义的技术实现路径不也是一种模拟吗？也并不是完全在客观真实世界当中
复制或克隆出一个对应的实体，即也是在数字世界中或人类内心中（站在人类对物理世界理解看待的视角）模拟
（映射）出一个实体或客观snapshot。
同时，这里也有另外一个问题，那就是这种模拟的真实性对于真实物理世界足够完备的吗？在物理规律上随着经
典力学收到来自广义相对论和量子场理论的冲击，客观确定性这件事情目前至少在理论层面是存疑的，我们物理
学在当前还未触达终极最终理论前，我想不管是曾经的经典力学、还是现在的量子场论这些理论，本质都是通过
数学符号化+形式化表达来完成对客观物理世界刻画的，即便是经典力学领域，也有无法表征并解决的诸多计算复
杂性问题，如“流体动力学”求解析解，甚至在这一领域近期很多研究人员在尝试使用数据驱动的方式如数值方法或
近似解法如机器学习来求解热动力学方程。
即便在不久的将来我们探寻到了最终理论，并能够通过优雅的数学形式对客观真实世界进行精准表达与刻画，但
其仍是概念世界中的数学形式而非客观存在实体，即是模拟或映射。
因此现在的问题是，现在“通过梯度下降在神经参数中隐式学习物理表征”与“基于仿真物理规律真实模拟”两者间哪
个最能逼近对真实世界模拟了。
回到关于两者间的本质问题，对于通过数学形式抽象出概念进行物理规律的仿真模拟底层本质上即是计算，只不
过计算的初始是基于给定的一套先验的定理或计算公式（如重力学方程或流体动力学方程），将变量（如流体的
状态量）引入完成计算，在计算过程中会涉及复杂的数学方法和形式变换；同样，经过梯度下降并在神经网络隐
藏参数中完成了对物理现象的表征后，再进行模型推理时，仍是某种形式的计算（通过训练过程中去优化模型的
函数即找寻更好的能拟合数据的规律），区别是计算的方式不同以及初始表征变量的不同。当然这里仍然有一个
问题尚待解决，就是：这两种计算模式本质上是否存在着不同？
为了解决上述遗留的问题，我想从另外一个看起来不是很严谨的角度尝试为大家做一下阐释：
对于上述两种形式模拟的本质，首先我们先看基于符号抽象化的这种对依赖人类理性认识总结归纳出的物理规律
进行公式化或定理化推理计算模拟过程，大家可以想象一下，这些人类理性认知的物理规律也是通过人类在历史
的长河中不断对现实世界的观察实践，甚至是主动反复试验后总结归纳出的抽象概念或模式，那么谁又晓得在这
个过程中人类大脑的神经元是做了怎样的事情呢？从脑神经科学上来看，目前也是基于电信号对神经元的刺激形
成了模式激活而形成的对客观世界的映射反馈，我想这至少与连接学派为代表的神经感知网络看起来更加类似
吧，而并不是上帝在人类出生时就将一个物理公式植入到大脑当中等着人类未来自己去寻找和发现。
所以我认为，某种程度上，另一种基于神经网络数学计算逼近的模拟过程，在其神经网络隐层中（如Sora通过
patches表征即在网络隐层进行某种目标导向的数学变换）本质上亦会抽象表征出客观物理规律、公式和某种未知
的模式，甚至是人类未知的某些复杂的偏微分方程，再依据这些隐性表征进行前向传播即模拟推理（这里与通过
符号规则化对物理规律仿真模拟等效），只不过当前人类无法按照自身的认知模式（或者是自身认知的局限性所
导致）理解和解释隐层中各个神经网络参数的内涵，但我想对于模型来说（如sora）如果肯做，也一定能按照人
类所能理解的认知模式将抽象的公式、定理等向人类呈现出来。
这里通过一个思想实验，尝试向大家假设了Sora中间隐层计算的过程，我相信通过一定的目标函数设定，是能够
以某种形式将中间结果即所谓人类理性的物理概念、规律等通过看似优雅的数学公式作为结果输出生成的，只不
过当前Sora的架构是E2E端到端的
通过上述表述，我想大家是否能够多少理解为什么我在上面说的两者模拟方法在本质上是一致的表述呢？

另外，我想也进一步向大家阐明，Sora至少在其对世界模拟采取的方法上可以算是真实世界物理模拟器，只不过
还需在scaling law之下，借助更多的算力对更大体量的真实数据不断观察训练取得进一步突破并有可能最终呈现出
在人类还未理解底层物理规律的情况之前突然向人类展示出让人类意想不到的世界真实表象，比如时间倒退回到
上世纪初，Sora也许能够在爱因斯坦发表广义相对论前，就已经向人类直接呈现出水星轨道近日点进动的精确描
述了。
「站在巨人的肩膀上」当然这里我想再与大家分享一些截取引用相关研究者们关于围绕Sora探讨的一些主题发生
和见解供大家回顾思考：
文章部分内容引用机器之心整理报道
关于模拟假设：
Sora 发布后，AI 领域的知名学者纷纷发表对模拟假设的看法。其中英伟达高级研究科学家 Jim Fan 将 Sora 描述
为「数据驱动的物理引擎」，他的解释为 Sora 通过大量视频的梯度下降在神经参数中隐式地学习物理引擎。Sora
是一个可学习的模拟器或「世界模型」。

来源：https://twitter.com/DrJimFan/status/1758210245799920123
每个人都同意 Sora 是一个令人印象深刻的模型。但除了生成逼真视频之外，Sora 还有更深层的属性吗？

OpenAI 团队似乎这样认为，他们在技术报告中称，Sora 获得了规模化的「模拟能力」，并通过动态相机运动、
遮挡、物体存继性和视频游戏模拟来实现场景一致性。
OpenAI 得出结论，这些功能表明了，视频模型的继续扩展是开发物理和数字世界，以及生活在其中的物体、动
物和人的高性能模拟器的一条有希望的路径。
我们可以将这一说法称为模拟假设，但该假设的问题在于它太模糊了。对于视频生成模型而言，模拟物理世界实
际意味着什么？哪些证据可以支持这一说法？让我们一一来解答。
Sora 必须学习一些隐式的文本到 3D、3D 转换、光线追踪渲染和物理规则，以便尽可能准确地对视频像素进行

建模。Sora 还必须学习游戏引擎的概念才能满足目标。
物理引擎术语有些令人困惑，尤其考虑到 Sora 可能是在虚拟引擎 5 的场景中接受训练的。我们首先需要澄清一

点，即没有人（包括 Jim Fan）认真地暗示 Sora 在推理时确实有一个循环的物理引擎。换句话说，Sora 不会利
用虚拟引擎的函数调用来生成视频。
这不仅仅因为我们完全不清楚它是如何工作的（资产、动画从哪里来），还因为 Sora 是一个 DiT 模型，而这些

根本不是 DiT 的工作方式。
这里需要提一下，让神经网络调用物理引擎是以前尝试过的事情，但不是为了视频生成，而是为了物理推理。
另外，此前，Ruibo Liu 等人（谷歌大脑团队、达特茅斯学院）在 2023 年发表的一篇论文《Mind's Eye:

Grounded Language Model Reasoning through Simulation》中增强了一种语言模型，通过使用物理引擎
（DeepMind 的 MuJoCo）模拟可能的结果，来提高在物理推理问题上的性能，并使用这些模拟的结果作为
prompt 中的提示。

此外，MIT 的 Josh Tenenbaum 实验室对这一工作进行了探索，使用语言模型将自然语言查询转换成概率编程语

言中的代码表达式。为了能够对语言中描述的物理现象进行推理，Lionel Wong 及其同事将一个物理模拟引擎集
成到了这个框架中。
他们在概率生成程序中添加了一个 Simulate_physicals 函数，该函数采用指定对象属性（如位置和速度）的初始

符号场景状态，并返回场景属性，这些属性在物理、建模运动和碰撞情况的基础上随时间更新。此外通过将物理
模拟添加为函数调用，语言描述可以转换为查询，并对描述的物理情况如何随时间推移发挥作用进行推理。

论文地址：https://arxiv.org/pdf/2306.12672.pdf
这显然与 Sora 的做法相差甚远，Sora 是一个端到端的神经网络，而不是一个神经符号系统。那么，我们该如何

理解 Sora 类似于模拟物理世界的「数据驱动的物理引擎」这一说法，来自谷歌 DeepMind 的高级 AI 总监
Nando de Freitas 表示，有限大小的神经网络在任何情况下可以预测接下来会发生什么的唯一方法是：学习促进
此类预测的内部模型，包括直观的物理定律。
看来我们越来越接近模拟假设的明确定义了：在拥有有限参数集的端到端神经网络架构之上的足够好的视频生成
模型，在训练中应该能够获得物理世界的内部模型。这是这类神经网络生成任意场景中的一致和逼真视频的最有
效方法，也可能是唯一方法。
那么，Sora 是否真的从 2D 视频中归纳出物理定律呢？如前所述，这看起来可能就很荒谬。比如 Sora 会以某种

方式获得热力学定律的内部模型，这似乎令人难以置信。游戏引擎通常也不模拟这些法则，它们可能会模拟热
效应（火灾、爆炸）和功（如物体克服摩擦移动），但这些模拟通常是高度抽象的，并不严格遵守热力学方程。
并且游戏引擎也根本不需要这样做，它们的重点是渲染场景的视觉和交互可信度，而不是严格的物理准确性。
那么，Sora 是否真的从 2D 视频中归纳出物理定律呢？如前所述，这看起来可能就很荒谬。比如 Sora 会以某种

方式获得热力学定律的内部模型，这似乎令人难以置信。游戏引擎通常也不模拟这些法则，它们可能会模拟热
效应（火灾、爆炸）和功（如物体克服摩擦移动），但这些模拟通常是高度抽象的，并不严格遵守热力学方程。
并且游戏引擎也根本不需要这样做，它们的重点是渲染场景的视觉和交互可信度，而不是严格的物理准确性。
Sora 会做类似的事情吗？在回答这个问题之前，我们需要谈一谈直观物理学。
直观物理学：
什么是直观物理学呢？对于人类而言，不仅仅是受过训练的物理学家，还包括外行甚至是婴儿，这些人都对物理
世界有直观的理解。这就是认知科学家称为直观物理学的东西：一种快速、自动的日常推理，让人们知道各种物
体相互作用时会发生什么，不需要有意识地思考物理计算。
研究表明，婴儿已经对物理世界的各个方面产生了稳定预期认知，包括物体持久性（即使看不见也知道物体的存
在）、坚固性（物体不会相互洞穿）以及内聚力（物体是一起移动的连接整体）。即使在很小的时候，婴儿似乎
也期待物体遵守某些物理原则，并将这些期望推广到新的物体，而不是必须单独学习每个特定物体的独特性。这
是我们与生俱来的「核心知识」的一部分，而不是发展过程中学到的东西。
总之，人类很小的时候就非常善于理解物理世界及规则，无论与生俱来、还是后天习得，或者二者兼而有之。
如何做到的呢？认知科学中有一个重要假设：人们使用直观物理引擎（intuitive physics engine，IPE）在心理上

模拟物理事件。该引擎近似现实中的物理动力学，并类似于计算机游戏中的物理引擎。
当我们观察物理场景时，可以根据嘈杂的感知证据来构建对物体、属性和作用力的心理表征，然后运行内部模拟
来预测接下来发生什么。

图源：https://cicl.stanford.edu/papers/smith2023probabilistic.pdf
更准确的说，IPE 是一种生成因果模型，通过对不精确但大致准确的物理原理的随机模拟，将不可观测的物理变
量和不确定性映射成可观测的物理现象。IPE 表示物理场景中物体的潜在物理变量（如质量、摩擦力、弹性）。
这些变量不能直接观察到，但控制了物体在场景中的行为方式。
这里只关注对 IPE 假说的一个反对意见，它与视频生成模型的争论尤其相关。一些研究人员认为，人们对物理场

景的判断有时仅取决于表面的视觉特征，而不是底层的物理特征。比如仅在静态图像上训练的 ResNet-50 等深
度神经网络可以判断积木塔的稳定性，其表现可与成年人媲美。此外，人们被发现依赖积木塔的外观，而不是摩
擦等物理约束，儿童则完全忽视形状。
IPE 假说支持者的普遍反应是，依赖启发式的证据可以简单地解释为限制 IPE 模拟的边界条件和机制。没有任何

模型会声称自己可以无限制地使用物理模拟来处理所有抽象推理，近似是不可避免的。
因此我认为底线是：至少对于人类而言，人们很容易通过假设 IPE 的存在来解释直观的物理推理，而该 IPE 使

用近似原理对物理场景进行概率心理模拟。这一假设仍然存在争议，并且有支持和反对的证据。但是，模拟假设
至少有一个相对合理且经过深思熟虑的案例，还有丰富的实验文献支持。有了这些背景，接下来我们谈谈世界模
型。
世界模型：
「世界模型」一词是技术术语之一，其含义已被逐渐淡化，以致在实践中变得难以描述。
2018 年，Ha David、Schmidhuber Jürgen 合作撰写了一篇名为《World Models》的论文，在这篇文章中，世

界模型包含一个感知组件，用于处理原始观察并将其压缩为紧凑编码。
Ha 和 Schmidhuber 关于世界模型的研究影响了后来许多作品。
我们以最近的研究来举例，几天前，Google DeepMind 推出了参数为 110 亿的基础世界模型 Genie，可以通过
单张图像提示生成可玩的交互式环境。在如下动图中，谷歌先使用 Imagen2 生成图像，再使用 Genie 将它们变
为动态方式。
另一位推崇世界模型的是 Yann LeCun，曾经提出了一种名为 JEPA（联合嵌入预测架构）的框架，在这一框架

下，世界模型是一个内部预测模型，描述世界如何运作：

除此以外，在 Sora 模型发布的当天，Meta 推出了一个全新的无监督「视频预测模型」——V-JEPA，与 JEPA

一脉相承。
V-JEPA 和 Sora 之间的主要区别之一是它们各自的学习目标，以及这些目标可能对其潜在表示产生的下游影

响。Sora 接受了像素空间中帧重建的训练，而 V-JEPA 接受了潜在空间中特征预测的训练。在 LeCun 看来，像
素级生成目标不足以引发对世界中的规划和行动有用的抽象表示。
综合来看，人们对世界模型的理解略有不同。在强化学习（RL）中，世界模型主要关注以智能体为中心的预
测，以及基于智能体行为对环境状态的模拟。在 Yann LeCun 对自主机器智能的构想中，世界模型同样关注以智
能体为中心的预测，不过这里的预测是通过自监督在潜在空间中学习得到的。无论是生成模型、RL 模型还是
JEPA 模型，它们都没有达到因果推理文献中对世界模型强大因果概念的高标准。至于像 Sora 这样的视频生成
模型，我们可以通过观察图像生成模型来寻找线索。
再看Sora：
与用于图像生成的潜在扩散模型一样，Sora 是根据视觉输入进行端到端训练的。训练和生成都不是明确地以物
理变量为条件的。Sora 从根本上不同于使用物理引擎来运行模拟的复合模型。此外，Sora 在感知、预测和决策
模块之间没有内置分离。
除此以外，Sora 与 Ha & Schmidhuber 的世界模型也有很大不同，它不会基于离散行为、观察和奖励信号的历

史来运行模拟。在这方面，OpenAI 的技术报告在讨论通过提示生成视频示例时提到了《我的世界》
（Minecraft），这有点误导。
Sora 可能模拟了离线强化学习中的智能体策略，但与 Genie 不同，Sora 没有接受过从视频中诱发潜在动作的训

练，并且输出也不以此类动作为条件。
然而，我们不能排除这样一个假设，Sora 是一个世界模拟器 —— 或者，稍微不那么夸张，在较弱意义上，它是

一个世界模型。
然而这种观点受到了包括 LeCun、Gary Marcus 等在内的多位 AI 大佬的反对，这些批评者指出，Sora 生成的视
频中公然违反了物理原理。不过 OpenAI 承认了这些局限，并提供了一些失败示例。例如，在下面示例中，人们
可以看到明显的时空不一致，包括生成的视频违反重力、碰撞动力学、坚固性和物体持久性。
事实上，Sora 输出的结果很明显会在直观物理上出错。如果非要说 Sora 是一个较弱意义上的世界模型，那么它

肯定不是一个完美的模型，甚至在各个方面都不完整。
与用于生成图像的潜在扩散模型一样，Sora 生成视频的过程并不发生在像素空间中，而是发生在潜在空间中
—— 时空 patch 潜在表示被编码的空间。
这一信息很重要，因为很多研究者认为 Sora 只是学习在逐帧像素变化中插入常见模式。Sora 架构中编码器和解

码器之间发生的所有事情都发生在潜在空间中。对于 Sora 来说，直观物理相关的属性的潜在表示对于早期的生
成过程（甚至在早期的扩散时间步长）具有因果效力，这并非难以置信。
「中篇」的回顾与总结：
以上在本篇中我们通过剖析LLMs，World Models，RL等模型和思想分别在「系统一 · 快思考与系统二 ·

慢思考」、「RL与LLM融合的本质&阐释」以及「世界模型的内涵」等方向尝试以回顾第一性原理的思考
方法探寻围绕在这些主题背后的本质问题，尝试阐释我们所生活的这个真实世界中所呈现，模拟，还原拼
接的各种形式的pattern，包括系统一、系统二中的直觉与推理pattern，RL中的AI4S的过程pattern，W
orld Models/Sora中的物理世界模拟的pattern，因为篇幅过于冗长，为了能像大家表达作者的核心观点
，并作出如下更核心一点的观点总结和提炼：
LLM所拼接的是人类交互、反应、判别，大部分系统一思维决策的pattern。
World Models或Sora所拼接的是真实世界直管物理现象的pattern，当然由于其在拼接过程中涉及了更广
泛的物理现象的囊括，因此在未来随着模型不断的进化迭代其隐层必然在无限逼近对底层世界规律的模拟
。
而LLMs+RL+…这种模型结构或未来的某种具身智能中的E2E模型在不断与真实世界环境持续交互、迭代
、进化的过程中通过更多样化的目标反馈和结构表征，使得其能够形成逐渐无限的拼接世间万物的patter
n，当然类人或某种智能体的主动行为和意识在这种持续的拼接过程中也将最终涌现。
「下篇」
写在前面：
这里不得不非常诚恳的向大家道歉，在发布「上篇」时拟定的「下篇」的大纲内容将不再做非常细节的技
术展开论述，而只做一些简单的示例说明，并以一些近期发生的小事件或者小故事进行叙述性观点的阐释
。
一方面确实是因为篇幅所限，截止当前全文似乎已经接近10万字..相信不光是对我自己也对读者小伙伴们
造成了写作和阅读上的非常大的困扰（再次抱歉;）
另一方面，文章的核心要点已经在「中篇」中向大家进行了详细论述和阐释，心愿也了了:)
同时，在写作中篇的过程中以及完成写作之后，发现很多本质的一些观点都有着不同的探寻方式和理解角
度，因此，我也希望大家也不要被我的思想所禁锢，希望在「下篇」中所表露的一些其他方面的本质，读
者小伙伴可以发挥自由意志各自尝试探寻，我在问题「上篇」和「中篇」当中的思想可作为大家借鉴参考
之用。
对了，需要跟大家提前说明的是，「下篇」中的很多小篇章中，内容都是相对比较轻松的故事性主题，也
缓和一下大家在阅读「上篇」和「中篇」时的那种枯燥的概念和逻辑。
最后，希望大家有任何问题也可随时与我取得联系，我非常愿意为大家进行开放的探讨和交流，先握个爪
+拳掌相扣下
「上/中篇」跟大伙盘道了那么多，不忘初心，其目的是什么？
下面列出了最开始我的一些想法目的，希望通过一种慢思考的探索方式能够更进一步探寻当下LLM技术发展到
AGI的可能发展路径，大家可以结合我在「上篇」和「中篇」中的内容，简单思考和回味下如下问题，其中的内
容大家可以回顾「上篇」和「中篇」的某些章节，也许会存在一些大家的想要的答案或些许指引，也希望能起到
抛砖引玉的作用，帮助大家在今后的学习和实践中按照自己的方式进行答案的持续探寻..
1、探究以泛GPT为代表的预训练自回归编码模型(即LLM)与Alpha系列为代表的RL，再到Rora为代表的DiT视觉
生成领域模型的本质普遍性及表象差异性，以及为什么要将其两者或三者联系甚至融合起来看待？
本质上是尝试对比采用上述三种模型结构或算法思想对真实世界中拟合的各种认知模式过程中所对应的数据分布
或构象的探究 · 这里的分布或构象的本质包括对真实世界中所蕴含的自然物理规律认知模式、基于现实抽象的概念
认知模式、抽象的形式化逻辑认知模式、复杂的个体生物&群体社会行为认知模式等呈现并映射的多样化流形数据
进行模拟分布表示 - 这部分请参见「中篇」中对于LLM与RL融合章节最后的观点阐释部分。其过程的本质是运用
抽象各种数学变换(如拉式变换/傅里叶变换/Z变换/希尔伯特变换等多种数学变换方法实现微分方程→普通多项式代
数方程)的求解，即在神经网络中，通过对可微（学习）的激活函数进行梯度拟合近似，如激活函数在网络中被参
数化为多项式、样条、sigmoid线性单元或神经网络等。
因此，对于不同领域真实世界所呈现并表示的数据流形分布在数据维度、模态以及流形轨迹的多样化上，导致了
采用不同的训练模式（如自回归预训练模式 vs 强化学习模式）与采用的不同数学变换方法或者所采用的多样激活
函数及激活形式的（如Multilayer Perceptron - MLP vs Kolmogorov-Arnold Networks - KAN）不同。
另外上述在不同的真实世界领域内，通过实践，存在着跨领域的流形分布的可迁移性，即多个空间中的普遍泛化
可迁移性，即跨领域泛化能力的移植，领域间也许也存在着背后底层的在概念化、形式化更广泛的联系（多模态
本身也是建立在这种跨模态领域间泛化能力可迁移的基础上的）。因此，考虑到未来AGI这种更强的通用性以及在
跨领域的超凡泛化与推理能力构建上，也许这也是为什么作者当时要考虑将多种不同模型以及背后所采用的不同
训练机制或模型结构进行一番探究分析的原因，用以尝试探寻或论证通往AGI的一种可能路径，当然也是此篇文章
撰写的其中缘由之一。
2、鉴于LLM与RL两者间的差异化能力考量，业内不少的思路尝试将两种方法结合在一起，但结合后要么看着不
是很巧妙，要不就是看起来很僵硬，总感觉像是一个过渡性的结合，并且看起来并没有以终为始，也不是原生的
思想与方法的融合，因此想要尝试探寻一下两种学习方法是否能更巧妙的相互结合与统一。
当前业内产业界或学术界均在逐步探索对于LLM采用强化学习思想进行其推理能力的延展，包括「上篇」中提到
的Algorithm Distillation所运用的思想和方法，基于各种XoT思想的Agent或Muti-Agent框架，包括一些基于Agent
框架思想下的复杂场景化模型优化的尝试，如Google之前推出的AMIE学习框架再到Med-Gemini、前不久的清华
大学AI医院小镇（论文地址：https://arxiv.org/pdf/2405.02957）以及近期MIT提出的基于博弈论思想改进提升LLM
生成能力准确性与内部一致性的尝试（论文地址：https://openreview.net/forum?id=n9xeGcI4Yg），甚至之前
OpenAI传的神神秘秘的Q*项目。
在这里，除了我们不可知的Q*之外，其它上述思想或方法均是对LLM在某个特定场景的深度推理能力探索的一
撇，通过以各种XoT规划形式搭建起的Agent框架，来完成复杂任务的推理过程或用于构建后续模型持续进行过程
奖励学习的SFT数据集。然而当前作者认为在模型训练机制搭建、推理框架模式以及对应的数据生成模拟构造上在
通用性与普适性上并没有形成统一、完备、高效的范式，同时尤其针对后续的模型隐状态的持续强化训练策略并
没有相关完备的通用场景验证或技术理论支撑（对比当初ChatGPT论文发布之初相对简单、清晰的Pre-
traning→SFT→RLHF模型生产路径）。
因此，在「中篇」里，针对LLM与RL的融合章节中，针对此部分尝试性的进行了一些自己的思考和探索，希望未
来能够持续探索并找到能构建出一个全局的认知流形挖掘模式，基于容纳了RL思想的深度探索推理学习范式，以
LLM通用预训练的方式继续将scaling law进行下去..

近期MIT提出的基于博弈论思想改进提升LLM生成能力
准确性与内部一致性
3、探究思维系统的两种推理模式：系统Ⅰ（快思考）和系统Ⅱ（慢思考）在推理过程的本质普遍性及表象差异
性，以及快慢思考是否与两类学习方法（LLM/RL）存在着某种关联？Agent在其中的内涵与定位是什么？
这部分可以部分参考上述内容，首先作者在本篇文章关于system1·快思考与system2·慢思考上，认为两种思考模
式或是推理模式对于不管是人类大脑还是机器大脑，在某种底层逻辑上本质是相同的，如不管是在底层所采的模
型结构或数学变换在不同计算域的训练拟合、还是不同激活函数最终的损失目标对齐上，甚至对模型的训练或采
用不同任务类型与训练范式上所呈现的底层tokenize数据流形分布表象差异和本质统一上，均存在着本质上的同构
（这里的同构取自群论中两个群在底层数学运算结构上所具有的同构性）。
而这里的LLM与RL即是所对应的上述两种不同类型的模型算法与任务训练范式。Agent则可看成为某个复杂·认知
流形中的衔接上下游不同流行分布的解析者、转换者、代理者或信号传递与激活者。
4、Prompt对于LLM来说其意义是什么，Prompt Learning给我们的更深一层的提示是什么？
这里作者希望能够将Prompt置身于一个更全局的视角来看待：将Prompt视为在真实世界中认知流形所映射表征为
数据流形分布中时空结构的前一部分，即可以将其看待为任何领域时空下的前置流形分布（或者称之为对下游流
形分布的前置条件），需要关注于这种“前置”作为整体数据流形或认知流形的组成与影响，其控制着整体全局流形
的分布与轨迹。
另外一方面，从整体模型推理全局视角来看，对于Xn+M>Yn来说，Xn+Yn可作为整体广义层面的认知数据流形分
布来看待，其中M作为模型节点，用于对齐衔接Xn到Yn的流形分布（在现实中人们的认知不可避免的总是进行着
通过Xn+M对Yn进行着预测或判断）。在本篇文章中我们之前将目光更多聚焦在M之后的Yn，并探索Yn在生成的
内容上所体现出在system1与system2间不同复杂流形分布在复杂推理模式上的差异和本质上的等价（当然这里的
探索初衷是希望能够合理、平滑的构建出其中的M，以对齐衔接system1与system2内部和之间的不同的复杂信息
结构）。而反观对于Xn确很少讨论，作者认为其本身应与Yn有着同等的研究探索价值，如在当下热度比较高的长
文本LLM推理的运用上。
而我想这里的潜在探索也不仅仅局限于上下文长文本，而应更深入的聚焦于Xn自身所有蕴含的复杂信息结构或其
流形分布（确切地说所蕴含着的类似于system1和system2那种复杂推理思想与综合决策状态下丰富而繁杂的信息
结构或分布流形）的探索与研究上，同时，需考虑在与具备同等复杂度的Yn（生成输出侧）之间相互作用于不同
时空或不同模态的鬼魅般的纠缠上（如Prompt工程，step by step提示，甚至是以XOT为思想的Agent延伸），两
者间与M的关系一定存在着更深邃的内涵联系。而我相信随着继续对其进行深入的研究与探索，也能在未来的模型
算法（M）所采用的网络结构或数学方法进一步改进创新提供响应的理论依据。如针对不同模态、时空结构所表征
的真实世界所采用的更为适配的模型结构或算法，如Sora的Diffusion与LLM的Transformer。
5、模型中知识或模式的迁移及泛化能力代表了什么？
相信大家对泛化性作为大语言模型LLM的重要能力已经非常了解了 - 这也是当前LLM体现出令人惊呼的通用涌现能
力的基础前提，这里不再过多赘述，但作者仍希望大家对泛化能力本身结合领域问题进行更发散甚至是更激进一
些的思考延展。比如泛化能力是否具备天然分层的特性？泛化本身在真实世界各领域中是否存在一定的结构特异
性等等，即不同领域间的进一步泛化可能。我想在掌握了这方面对于泛化本身更深层次的了解或者仅仅是直觉上
的感知也好，在未来针对更复杂的认知模式探索过程中对于模型所采用的训练模式、学习任务、计算方法等将会
有着非常重要的指导作用。
6、LLM的路径是否能达到一个真正意义上的世界模型WM并成为AGI甚至是ASI吗？WHY？HOW？
作者认为：LLM所采用的自回归学习方式为大规模的非监督预训练提供了非常适合的训练模式，同时此种训练模
式与自然语言这种作为人类上千年所创造并沿用至今的结构灵活、语义丰富的符号化表征工具是高度匹配且自适
的（当然这里大概率是基于人类基于构筑的语言学在充分的理解自然语言的结构特征与语义表达的特性基础上，
洞察并创造的对应训练模式，如早期的word2vec，CBOW，Skip Gram..的尝试及运用），而且作为当前人类所记
录、积累的全网文本数据或线下纸质记录文字所覆盖的内容广度在当下LLM演进的窗口下与scaling law又是天然契
合的。但我们仍需要清醒的认识自然语言本身对真实物理世界中所囊括蕴含的事物描述或表征的局限性，如抽象
的代数运算、几何空间构型、形式化的逻辑推理与证明、再到多模态的这些世界表征。
这里针对Sora这种针对CV视觉模态的模型有必要跟大家进行一下说明：我们知道Sora是采用的DiT的模型结构并
采用类似的预训练方法完成的模型训练，并在其中采用了petches作为语言符号的token来进行嵌入表征。而之所
以采用类似LLM预训练方法，作者认为其CV数据与语言文本数据在其时空结构上对于模型训练任务来说也许在某
种程度的本质上是同构的，且人类也积累了丰富的CV数据。因此人们能够相对容易的将LLM的很多训练方法和技
巧通过某种调整优化或变化快速的移植到Sora训练的过程当中来。而涉及到复杂的推理范畴，其内部所蕴含的结
构或路径或构象也许与人类现存的自然语言文本记录在所表达的在认知维度的时空结构上存在着很大不同，但是
否在某种程度上也存在本质上的同构呢？因此才有了作者将LLM与RL思想相融合统一探索的想法。
7、AI4S是否能带来科学突破？不光是改变研究范式，甚至是触达到探索知识的另一片天空之城？
作者认为是一定的且意义非凡的，可参考后面所列举的几个有代表性的例子。
下面为大伙举几个近期在产业界以及学术界发生的在一些小故事和小事件，以进一步阐释全篇文章对于LLM与RL
未来的融合之路的前瞻性考虑，并展望未来可能在通往AGI路途中的AI4S上的探索与可能：
• 精神的助产士 · 苏格拉底式问答法
• 华人数学家陶哲轩在天空之城的探索模式
• 欧几里德的助手 · AI4S之AlphaGeometry
• "KAN" AI 4 Science?
• 为什么说这次AlphaFold3再次意义非凡？
• Q*猜想
• P vs. NP 的五十年
精神的助产士 · 苏格拉底式问答法
苏格拉底（约公元前470年—公元前399年）是古希腊雅典时代的一位杰出哲学家。他没有留下任何书面作品，但
由于他的对话法和批判性思考，苏格拉底被广泛认为是西方哲学传统的奠基人。苏格拉底最著名的贡献是他的
「苏格拉底式问答法」。
苏格拉底通过一系列精心设计的提问和反问，引导对话者从自身的经验和逻辑中寻找答案，而不是直接给出答
案。通过对话，苏格拉底揭示了人们信念中的矛盾和不一致之处，迫使对话者重新考虑他们的立场和观点。苏格
拉底经常询问如“仁义是什么？”“勇敢是什么？”等本质性问题，追求对概念的明确和普遍有效的定义。
同时，苏格拉底式问答法强调理性思考和对话在发现真理和提升个人道德修养中的作用，它不仅是探索哲学问题
的工具，也成为了教育和法律实践中重要的思考和讨论方法。
如：苏格拉底在教学生获得某种概念时，不是把这种概念直接告诉学生，而是先向学生提出问题，让学生回答，
如果学生回答错了，他也不直接纠正，而是提出另外的问题引导学生思考，从而一步一步得出正确的结论。这种
问答分为三步：第一步称为苏格拉底讽刺，他认为这是使人变得聪明的一个必要的步骤，因为除非一个人很谦逊
“自知其无知”，否则他不可能学到真知。第二步叫定义，在问答中经过反复诘难和归纳，从而得出明确的定义和概
念，第三步叫助产术，引导学生自己进行思索，自己得出结论.。在现实实践当中，我们会看到很多这样的追问模
式往往能够对问题进行有效解决，并在其中还能迸发出创新的火花以及对问题本质深邃而抽象的理解。
那么，我们不禁疑惑，这种「苏格拉底式问答法」在其中到底发挥了什么样的魔法力量，能够以如此的方式在过
程当中去解决问题，而通过这种方法针对某类领域问题的最终解决真的是实际可行的吗？

验证论文Ⅰ：利用苏格拉底提问模拟器更好地蒸馏ChatGPT对话能力
为了验证这一方式，香港中文大学（深圳）和深圳市大数据研究院所在的王本友教授团队，通过在高质量的人机
对话数据集 ShareGPT 上，仅计算人类提问的损失来反转学习目标，基于 LLaMA 基座，全微调训练出一个名为
“Socratic（苏格拉底的信徒）”的用户模拟器（也就是上文中的 Anuciv）。随后，通过迭代调用 Socratic 与
ChatGPT 获得了高度类人的人机对话数据集 SocraticChat，并在该数据集上训练出表现看似优越的助手模型
PlatoLM（论文地址：https://arxiv.org/abs/2308.11534v4）

文章思路利用苏格拉底式提问采取老师教学生这个经典方法，通过连续提问来充分激发学生的能力，促进学生的
思考。在大模型训练的场景是，学习一个用户模拟器专门去给 ChatGPT/GPT4 助手模型连续提问，通过学习助手
模型的输出来高效蒸馏一个开源模型。在苏格拉底式提问中，苏格拉底的下一轮问题可以比上一轮更复杂，更具
体或者联想到更高层次，以此充分帮助学生思考并做出更好的回复。
该论文提出的模拟器训练方法，可以使用户模拟器在基于上下文背景下持续追问，与在无上下文背景下自主提问
之间灵活切换，这使其不仅具有良好的迁移领域的能力，将任何单轮对话扩展成多轮形式，还能够扩展
ShareGPT 数据集的规模和多样性。
此外，论文发现，Socratic 提出的问题的复杂性可以随着多轮对话的进行循序渐进地提高，并由此激发 ChatGPT
自动 ICL 的能力，这与苏格拉底式质疑——通过提问者由浅入深地提问来启发回答者思考的过程——不谋而合。
论文观点认为经过人类高超的 prompting 技术微调知识丰富的 llama backbone 后的高度类人的模拟器 Socratic 可

以类比为苏格拉底，模拟器与 ChatGPT 之间的对话所形成的数据集 SocraticChat 可以类比为对话录（柏拉图所
记载的苏格拉底启发人类思考的对话体文集），学习 ChatGPT 的回答的助手模型 PlatoLM 可以类比为柏拉图，整
个 pipeline 可以类比为苏格拉底式教学。

具体的，基于苏格拉底式质疑的用户模拟器的教学方法论分为三步，如方法论对比图所示，他们的第一步与第三
步是对称的。

1. 训练用户模拟器
与训练助手模型相反，训练过程中遮蔽了用户的提问，计算其损失，修改学习目标为人类的提问，并基于 llama
基座，使用与训练助手模型对偶的提示模板，微调模型 Socratic。在切割 ShareGPT 数据集中超过 2048 最大上
下文长度的多轮对话样本时，使切割后的 segments 以 gpt 开头。最终 human 和 gpt 开头的多轮对话样本的分
布大致平衡，这使模拟器可以在基于上下文背景下持续追问，与在无上下文信息下自主提问之间灵活切换。
2. 合成对话SocraticChat
在推理时，论文引入了两种教学方法，分别为自由模式和种子模式的教学。对于前者，苏格拉底可以无需任何上
下文作为引导，自由提出质疑；而种子模式则是指，以其他数据集的单轮对话作为种子，继续追问。
此外，论文指出，当迭代调用用户模拟器和 ChatGPT API 时，会不可避免地出现何时终止对话的问题。由于
ShareGPT 数据集的特殊性 —— 即无从判断一个对话的结束是否为一个话题的结束 —— 论文采用了硬控制的方
法，换句话说，当上下文长度超过最大长度 2048 后，结束对话。
3. 训练助手模型PlatoLM
与大多数训练助手模型的方法一致，论文遮蔽了助手的回答，计算损失，并基于 llama 基座微调模型。
实验结果
为了评估该问答范式的优越性，论文分别根据模拟器的教学方式，对基线和消融的结果模型和各模拟器合成的数
据集进行了评估：

对于基线模型，首先保证使用同等数量的样本（10K）、同样的训练方式（SFT）、同样的基座模型（llama1）
进行评估，结果证明：自由模式的PlatoLM在单轮 benchmark（Vicuna-Bench、Alpaca-Eval）上超越了基线模
型（Vicuna、Baize、UltraLM），在多轮 benchmark——MT-Bench 的双评中超越了所有基线模型，在单评中仅
次于 Vicuna（由于 MT-bench 对于分差较大的 domain 采用了惩罚机制）。人评与双评有较高的一致性。
之后，论文使用 ScoraticChat 的全部数据集，基于 llama2 进行训练，在 MT-bench 和 Alpaca-Eval benchmark

上，以更少的样本量（50K）、更短的上下文长度（2048）超越了同等规模的基线模型，最终在两个榜单的 7B
规模模型中排名第一（现在第二），在 Alpaca-Eval 榜单中，甚至打败了 GPT3.5 和一些 13B 模型（LLaMA2
Chat 13B 等）。
对于消融模型，他们以对话两端分别为人机、人人、机机的数据集的单轮对话 ShareGPT、Dolly、Evol-instruct
作为种子，引导模拟器，发现经过引导的模拟器的后续提问具有对应数据集域的特性，这证明了模拟器 Socratic
具有可迁移性。
此外，论文也发现，尽管 Evol-instruct 的种子问题为人类所提出，但经过 WizardLM 多轮的改写后，提问的类人

性大大降低，因此以 Evol-instruct 引导的 PlatoLM 表现不如经过 Dolly 和 ShareGPT 引导的 PlatoLM。
最后，论文指出，尽管种子模式的模拟器 Scoratic 容易受限于种子的规模，自由模式的模拟器不受该限制，但种

子的规模问题可以通过 ensemble 来解决。
验证论文Ⅱ：GPT-4在97轮对话中探索世界难题，给出P≠NP结论
在本篇的最后一部分，还将会重点讨论P/NP问题，这里意在引出采用苏格拉底问答推理框架探索复杂问题的例
证。
对于身处科研领域的人来说，或多或少的都听到过 P/NP 问题，该问题被克雷数学研究所收录在千禧年大奖难题

中，里面有七大难题，大家熟知的庞加莱猜想、黎曼假设等都包含在内。P/NP 问题最早在 1971 年由史提芬・古
克（Stephen A. Cook）和列昂尼德・列文分别提出。多年以来，很多人都投入到该问题的研究中。但有人表示
P=NP 的解决保守估计可能还需要 100 年的时间。
近年来，不乏有人声称证明了 P 等于或者不等于 NP，但证明过程都存在错误。到目前为止，还没有人能够回答这

个问题。现在，随着 AI 技术的发展，尤其是这一年来大语言模型的快速迭代，有研究开始尝试使用 AI 技术来解
决这些世界难题。
来自微软研究院、北京大学、北航等机构的研究者提出使用大语言模型 (LLM) 来增强和加速对 P versus NP 问题

的研究。具体来说，论文提出了一个能使 LLM 进行深入思考并解决复杂问题的通用框架：苏格拉底推理
（Socratic reasoning）。基于该框架，LLM 可以进行递归地发现、解决并整合问题，通过对 P vs. NP 问题的试点
研究表明，GPT-4 成功地生成了一个证明模式，并在 97 轮对话回合中进行了严格的推理，得出「P≠ NP」的结
论，这与（Xu 和 Zhou，2023）结论一致。
论文地址：https://arxiv.org/pdf/2309.05689.pdf

本篇论文所采用的核心验证思想为：
引入一个名为「苏格拉底推理」的框架，鼓励 LLM 使用演绎、转换、分解等模式来激发批判性思维。具体模型选

择GPT-4，选题为：理论计算机科学中的 P 与 NP 问题。其意义意在展示通过 GPT-4 等 LLM 推断新知识并与人
类合作探索复杂专家级问题的潜在能力。
论文作者之所以将框架命名为「苏格拉底推理」，是受到了古希腊哲学家苏格拉底的启发。苏格拉底曾经说过：
「我无法教给任何人任何东西。我只能让他们思考。」而该框架整体设计思路也是这样的，这是一种通用的问题
解决框架，允许 LLM 在广泛的解决方案空间中导航并有效地得出答案。
如下表所示，「苏格拉底推理」有五种提示模式：演绎（deduction）、变换（transformation）、分解
（decomposition）、验证（verification）、融合（integration）。这些模式被用来发现新的见解和观点，将复杂的
问题分解成子问题或小步骤，并通过挑战响应答案来进行自我改进。

在较小的问题（atomic problem）上，LLM 能够直接给出推理结果，这时采用演绎模式（例如提示语为让我们一

步一步思考……）来指导 LLM 直接得出结论，即 COT..
对于更加复杂的问题，本文首先要求 LLM 将问题转化成一个新问题或将其分解为几个子问题。然后递归地执行这

些模式，直到达到原子问题，即 Agent规划能力..
当产生新的问题或得出新的结论时，采用验证模式并利用 LLM 的自我评判能力进行验证和完善，即 Agent反思能

力..
最后，融合模式要求 LLM 根据子问题的结果综合结论，在次过程中，激励 LLM 通过一系列对话递归地继续上述

过程，直到解决目标问题。
下图为「苏格拉底推理」中用于解决 P vs. NP 问题的对话示例。案例研究中使用了 GPT-4 API，此外，本文还根

据轮次索引对流程进行排序。

探索过程中，本文引入了五个不同的角色（例如，精通概率论的数学家）作为辅助证明者。完成这项实验总共进
行了 97 轮对话，分为前 14 论对话和后 83 轮对话，即 Muti-Agent...
通过上述两篇论文，我们看到，通过构建苏格拉底式问答框架或推理模式，我们似乎能够进一步激发LLM在复杂
推理甚至是未知科学领域的深度探索上令人难以想象的潜能，而这背后的缘由以及为我们今后如何能够更有意义
的运用LLM并实现更大家的价值是值得我们每一位同学深入思考的。
当然，我们看到，上述论文中（因为是去年相对早期发表的论文）的相关技术概念包含当下比较成熟的Prompt工
程、COT、Agent等技术和思想，但我想对于这些技术的运用和思想的边界不应局限于当下，其蕴含的更本质的
内涵以及所能发挥出的价值需要进一步被大家持续探索和挖掘，如产业创新实践上对于构建未来模型自主端到端
的复杂推理能力（猜想基于Q*方法训练的GPT-5在任务&数据的构造以及训练方法上的创新），再如在学术探索上
对于当下LLM基于Prompt、COT、Agent、systemⅠ&Ⅱ、RL等这些技术和思想其理论的本质探寻。
正如作者在本篇文章的「上、中篇」中，尝试统一systemⅠ与systemⅡ的认知推理模式，建立认知流行分布的统
一框架思想用于阐释当前LLM及未来可扩展的通往AGI的认知范式，再到阐释采用可微多项式方程去模拟、逼近真
实物理世界所呈现的世界模型&世界模拟器的数学本质。
苏格拉底式的交互式prompt给出的模型持续探索的意义，这里似乎是想给大家说明一下系统二·慢思考与苏格拉底
的追问模式似乎有着一些底层的联系。
上述俩篇paper也在尝试通过以苏格拉底提问的方式与LLMs进行持续交互并探寻问题的解决方案或用于科学洞察
与发现，为运用LLMs解决科学问题提供了一定的启发性。
大家捎带也推荐给大家阅读一本书《苏格拉底的申辩》，非常有意思和内涵的一本书，罗翔老师也重磅推荐过
的。
华人数学家陶哲轩在天空之城的探索模式

去年7夏天，一篇加州理工和 MIT 研究者用 ChatGPT 证明数学定理的论文爆火，在数学圈引发了极大关注。

英伟达首席科学家 Jim Fan 激动转发，称 AI 数学 Copilot 已经到来，下一个发现新定理的，就是全自动 AI 数学家

了！纽约时报近日也发文，称数学家们做好准备，AI 将在十年内赶上甚至超过最优秀的人类数学家，而陶哲轩本
人，也转发了此文。

去年年底，陶哲轩等人曾用 Lean（一款交互式定理证明器，也是一门编程语言）形式化了他们的一篇论文。这篇
论文是对多项式 Freiman-Ruzsa 猜想的一个版本的证明，于去年 11 月发布在 arXiv 上。在编写 Lean 语言代码的
时候，陶哲轩还借助了 AI 编程助手 Copilot。该事件引起数学界和人工智能界的广泛关注。
在今年二月，加州大学洛杉矶分校理论与应用数学研究所，曾举行了一场关于「机器辅助证明」的研讨会，研讨
会的主要组织者，就是 2006 年的菲尔兹奖得主、在 UCLA 任职的数学家陶哲轩。他指出，用 AI 辅助数学证明，
其实是非常值得关注的现象。
直到最近几年，数学家才开始担心 AI 的潜在威胁，无论是 AI 对于数学美学的破坏，还是对于数学家本身的威

胁。而杰出的社区成员们，正在把这些问题摆上台面，开始探索如何「打破禁忌」。
2000 多年来，欧几里得的文本一直是数学论证和推理的范式，欧几里得以近乎诗意的「定义」开始，在此基础上
建立了当时的数学 —— 使用基本概念、定义和先前的定理，每个连续的步骤都「清楚地遵循」以前的步骤，以这
样一种方式证明事物，即公理化系统。

但是到 20 世纪以后，数学家们不愿意再将数学建立在这种直观的几何基础上了，相反，他们开发了正式的系统，
这个系统中有着精确的符号表示和机械的规则。
早期，开源证明助手系统 Lean 在发布初已经引发了大量关注，Lean 使用的是自动推理，由老式的 AI GOFAI 提

供支持，这是一个受逻辑启发的象征式 AI。
关于Lean，有兴趣的读者可以去网上自行查阅相关工具使用的说明以及试用，不过最好大家还是先提前了解学
习一下数学形式化证明相关的领域知识，当然还有其它类似的形式化语言如Isabelle，Metamath等..
随后，去年底，陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。他再次呼吁数
学研究者学会正确利用AI工具。陶哲轩表示，在整个团队中，自己贡献的代码大概只有5%。这个结果很鼓舞人
心，因为这意味着数学家即使不具备Lean编程技能，也能领导Lean的形式化项目。

KeyPoint：
• 陶哲轩成功应用AI工具形式化多项式Freiman-Ruzsa猜想的证明，引起数学界广泛关注。
• 他详细记录了使用Blueprint在Lean4中形式化证明的过程，强调了正确使用AI工具的重要性。
• 利用Blueprint工具，陶哲轩团队分解证明过程，通过众多贡献者并行工作成功形式化了PFR猜想。
• 陶哲轩认为形式化证明的主流化或创造既人类可读又机器可解的证明，将数学演变成一种高效的编程。
• 这一成果引发了对数学研究未来的讨论，一些人认为形式化将成为主流数学中的关键趋势，但陶哲轩提醒不
要削弱理解证明的重要性。
同样，这也是去年我认为非常有启发意义的一件事情，试想一下，当LLMs或RL在充分掌握并运用数学的形式化证
明体系后，不光是对于AI领域，是否也会再次迎来数学的春天呢？
直到上个月中，很多围绕当前LLMs的数学探索工作已经在进行了，网上这方面的公开的思想发表和学术上的动作
也很多。在陶哲轩的启发下，越来越多的数学家开始尝试利用人工智能进行数学探索。这次，他们瞄准的目标是
世界十大最顶尖数学难题之一的费马大定理。

在 300 多年里，数学家们一直在努力，接力证明费马大定理。直到 1995 年，美国普林斯顿大学的 Andrew Wiles

教授经过 8 年的孤军奋战，终于用 130 页长的篇幅完成了证明。Wiles 也成为整个数学界的英雄。

既然费马大定理已经被证明了，数学家还能用 AI 做什么呢？
答案是：形式化它的证明。
数学的形式化通常指的是使用严格的形式语言（如逻辑和集合论）来表述数学对象、结构、定理和证明，使其能
够在计算机上进行表示、验证和操作，从而保证数学内容的准确性和一致性。当时，Lean 技术开源社区最重要的
推广者、伦敦帝国理工学院的 Kevin Buzzard 表示：「从根本上来说，显而易见的是，当你将某些东西数字化
时，你就可以以新的方式使用它。我们将把数学数字化，这会让数学变得更好。」这位 Buzzard 教授，就是最近
宣称要形式化费马大定理证明的数学家，他所用的工具也是 Lean。
数学的形式化，即将纸上的数学转换为能够理解定理和证明概念的计算机编程语言的艺术。这些编程语言，也称
为交互式定理证明器（ITP），已经存在了数十年。然而，近年来，这一领域似乎吸引了数学界的一部分关注。我
们已经见证了多个研究数学形式化的例子，其中最新的是陶哲轩等人对多项式 Freiman—Ruzsa 猜想证明的形式
化。这篇 2023 年的突破性论文在短短三周内就在 Lean 中完成了形式化。这样的成功案例可能会让旁观者认为，
像 Lean 这样的 ITP 现在已经准备好形式化所有现代数学了。

事实上，数论在这一方面的「滞后」是 Buzzard 启动 FLT 当代证明形式化的主要动机之一。在项目完成之前，

Lean 将能够理解自守形式（一类特别的复变量函数）和表示、伽罗瓦表示、潜在自守性、模性提升定理、代数簇
的算术、类域论、算术对偶定理、志村簇等现代代数数论中使用的概念。在 Buzzard 看来，有了这些做基础，将
他自己专业领域正在发生的事情形式化将不再是科幻小说。
那么，为什么要这么做呢？Buzzard 解释说，「如果我们相信一些计算机科学家的话，人工智能的指数级增长终
将使计算机能够帮助数学家进行研究。这样的工作可以帮助计算机理解我们在现代数学研究中正在做的事情。」
我想，这也是我想在本篇中引入此章节的目的，甚至曾经的AI 4 Math在某种程度上冥冥之中在指引着我完成这篇
文章的写作，因为在这个抽象而又深邃的领域中蕴含的思想以及可能也许真的是无限且优美的（因为相比于
AlphaGo但它的 action space 和 episode 长度都要大得多）。可以说，AI 4 Math 是一个完美的AI练武场，未来
我们需要用到各种最前沿的技术才有希望解决它，所以也很有可能在这些方向催生出新的想法和技术。这个珍贵
的练武场，是现在日趋浮躁的AI社区非常需要的。
也许，AI for Math 就是下一个 AlphaGo或ChatGPT，并且我想难度和重要性都比这两者要高出好几个量级！而这

种级别的问题，既需要强大的强化学习技术，又需要强大的语言模型，所以最终其中通往AGI的可能路途就是
RL×LLM！
试想一下：呈现于数学形式化世界中的流行推理轨迹是长成什么样子的呢？我想与AlphaGO的围棋着子轨迹和
LLM的tokenzine轨迹还是有着很大不同吧！
欧几里德的助手 · AI4S之AlphaGeometry
这里再插播一个「AlphaGeometry」，虽然其解决的平面几何问题是采用的是几十年前就可以达到100%正确率
问题的符号方法（如吴方法），看起来并不能算神经网络带来的质的突破，但将其与当下LLM的结合确实能够朝
着自主形式化证明路径进一步延续和进化。
这是DeepMind去年底发布的又一个Alpha系列·AlphaGeometry，其创新展示了一种神经符号方法，通过从头开始
的大规模探索来证明定理，避免了对人工注释的证明示例和人工策划的问题陈述的需求。在纯合成数据上生成和
训练语言模型的方法为面临相同数据稀缺问题的数学领域提供了一个通用的指导框架。
我们看到，这即是一种尝试通过LLMs与RL构造环境并持续探索过程学习在平面几何上的路径，其提出了一种使用
合成数据进行定理证明的替代方法，从而避免了翻译人工提供的证明示例的需要，在其中的数据合成方面，完全
由高效的符号推导引擎 DD + AR 可以达到的推导步骤组成，并应用合成数据进行后LLMs预训练。
有兴趣的读者也可以直接搜索精度下里面的内容，也许会收到非常不一样的额外启发，不过也需要对形式化证明
有较深刻的认知。

"KAN" AI 4 Science?
五一假期期间，来自MIT、加州理工、东北大学等机构的团队发布了一个全新的神经网络结构 · Kolmogorov-
Arnold Networks (KAN)，而之所以说是“全新的”，主要是其打破了长期统治于DNN（深度学习）领域长达数十
年之久的传统MLP（多层感知器）的基础架构即基于静态激活函数的神经网络结构。具体的，研究人员对MLP做
了一个简单的改变，即将原可学习的激活函数从节点（神经元）迁移到边（权重）上，并且建立可学习的激活函
数以区别于传统神经元节点上固定的激活函数..
记得在「中篇」融合RL与LLM思想，探寻世界模型以迈向AGI 中，有曾跟大家提及未来AI能力持续的提升与演

进除了离不开满足于对数据与算力的scale law之外，网络模型结构的突破将是可能影响AGI发展的另一个关键变
量，而算法是模型结构应用的基础，基础数学理论即又是算法的理论基础，包括在SystemⅠ与SystemⅡ的快慢
思考中，也对当下LLM所采用的自回归预测推理背后的模型结构所面对SystemⅡ的局限性进行了一些阐释；包括
在提及与RL（强化学习）融合再到针对AI4S的探索中，其中在“世界模型的内涵”章节中对不管是World Models还
是World Simulators不管是采用“传统数字符号化+形式化表征完成物理世界规律的精准刻画”还是基于“通过梯度下
降在神经参数中隐式学习物理表征以模拟逼近”这两种计算模式的本质探寻..
如今，在模型算法中的底层数学基础层面上，KAN似乎寻找到了另一种更适合于处理数学和物理计算领域问题的
数学变换拟合过程或非线性回归逼近过程，而这种“适合”是否是某种必然，与论文中所说的这些可能是非光滑甚至
是分形的1D 函数在解决数学或物理问题过程中所面临的大多数科学和日常生活中的的函数所对应的光滑性，及稀
疏的组合结构的普遍性在其背后有着什么隐秘的联系？我想这都是需要在今后持续在不同任务领域进行实践摸索
的..
正如，KAN一作小哥在知乎上受到来自国内五一假期各种因扎墩儿人满为患的景点和高速一日游的网民富有情绪
化的讨论(自己编的)所点评回复的那样：
“看到了好多大家的夸奖和批评（知乎上批评居多哈哈），受宠若惊。
我设计网络和编程的时候，脑子里面想的都是数学物理的应用，所以模块化/效率等等就没有太怎么考虑，请大
家多多包涵。然后也没有想到AI/ML大家这么关注。我的目标受众本来是做科学发现的群体，比较小众的。大家
还是理性看待吧，什么是公众号的噱头什么真的只有自己试了才知道。欢迎大家多多尝试，探索KAN的边界在哪
里，它和MLP的关系是什么，存不存在更大的框架可以包含两者。KAN/MLP肯定是各有优缺点的，看应用场景
了。另外，我的默认参数都是我在文章的数学物理场景的例子中调的，不一定可以直接迁移到其它场景，可能需
要仔细调调，尤其是优化部分。当然也有可能其它场景（比如大规模计算），KAN现阶段就是不如MLP合适。
KAN更适合高精度和可解释的计算和科学发现。了解到大家的负面结果我也会很开心，因为能让我更好理解KAN
的局限。理解大家喷喷，但也更希望大家去GitHub提提有建设性的建议。”
ps：当天我也理性的加入了有关KAN的讨论，有可能是出于理性又或者是在评论中小挺了下小哥，后续也跟小哥
在知乎上进行了一些小的互动并点赞了当初发表的一篇文章

而就在KAN发表不到10天，刚刚提出了KAN的MIT物理学家Max Tegmark和一左小哥刘子鸣，又有一项重磅研究
问世了！团队发现，它们用AI发现了物理学中的新方程，从此，AI很可能被引入物理学研究领域，帮助人类物理学
家做出全新的发现。
论文地址：https://arxiv.org/abs/2405.04484

作者表示：这篇论文并没有解决价值数百万美元的核聚变问题，而是在更简单的设置中，引入一个有前途的概念
验证。偏微分方程（PDE）- 可以说是物理学家的面包和黄油，但它们非常罕见，人类科学家很难只用纸笔就能
发现。
为此，研究者们推出了一个名为OptPDE的AI系统。使用这个AI，就可以发现新的、从未见过的可积偏微分方程！
具体来说，使用了5000个随机初始化的PDE系数值运行OptPDE后，研究者发现了4个可积偏微分方程，其中是一
个是已知的，而另外三个是全新的方程。

利用这种首创的机器学习方法，MIT的科学家们为物理学提供了一种全新的研究模式。从此，可以由人类向系统提
供领域知识，AI产生希望的假设，然后再由人类进行解释和验证。这就实现了整个物理学发现的闭环。
详细的AI探索发现过程以及其中所采用的创新方法感兴趣的小伙伴可自行参考原论文，这里不再进行针对原论文
的详细解析和论述，不过对偏微分方程（PDE）等数学概念不是很熟悉的同学也许需要提前做一些准备，主要思
想和过程是采用了先验的一些知识「可积系统在物理学和工程系中发挥着重要作用，然而，它们极其罕见，难以
发现，传统中发现可积系统的方法是靠纸笔，它侧重于符号推导，还需要考虑到可能系统和守恒量（CQ）的指数
级大搜索空间，效率极低。」，并利用领域限定知识构造训练任务闭环以生成响应洞察，简单来说：
当PDE具有守恒量时，它们是可积的（例如，能量是质量弹簧的一个守恒量）。因此，研究者将OptPDE设计为一
个两部分的系统，它可以：
（1）计算任何PDE的守恒量（CQ）数量；
（2）找出使n_CQ最大化的偏微分方程。
因为研究者寻找n_CQ的方法是可微分的，因此要发现新的可积偏微分方程，只需使PDE中的项系数可训练，并通
过SGD最大化n_CQ即可。

他们以从u_x => u_xxx^3的项为基础，运行了5000次。研究者发现，他们得到大多数解，都是4个偏微分方程家族

的线性组合，其中一个是KdV方程的一种形式，还有3个方程完全是新增的，在文献中并没有记载！由此，研究者
确认，这些新出现的可积偏微分方程中，至少具有一个守恒量。也就是，在AI的帮助下，人类科学家发现了一些
全新的可积偏微分方程！不过，如果想解释和分析这些发现，还是要靠人类科学家。
这篇论文的发表，也预示着，通过引入的这种人类科学家和AI协作的范式，很可能激励人类物理学家为物理学做
出新的发现！
为什么说这次AlphaFold3再次意义非凡？
上上周，谷歌DeepMind重磅发布了AlphaFold 3（AF3），一经推出，也许预示着人类早有一天将冲破「蛋白质宇
宙」，触达更广泛的生物微观领域 - 意味着更广泛、更复杂的生物分子尺度可以进行相应结构和功能预测以更深入
和普遍的辅助探索生命科学领域，同时这次使用的，还是AI革命最核心的组合架构——Transformer+Diffusion。可
以说，在LLM AIGC快速的发展浪潮之下，AF3的发布似乎已经是其AI4S技术路径上的某种必然，其中底层所采用
的算法创新或技术突破并没有给大家带来太大的惊艳，但仍然能为生命科学领域的研究范式以及效率的提升带来
突破与遐想。
由于该研究以「Accurate structure prediction of biomolecular interactions with AlphaFold 3」为题，于 2024 年 5

月 8 日发布在《Nature》，截止今日（5月10日），Internet各处已经充斥着太多关于论文技术分析以及在生命科
学以及生物医药领域的应用解读，因此本篇讲只围绕研究核心内容进行一些技术与应用价值的提炼和总结，并给
出作者对于未来不管是"AI 4 LS(Life Sciences)"，"AI 4 DD(Drug Development)"，"AI 4 Bio(Biomedical)" 还是 "AI
4 Maths"，"AI 4 Physics"，"AI 4 Chemistry" 再到最终统一的AI4S范式的进一步大胆的技术路径的思考与延伸。

下面对AlphaFold 3（AF3）为大家做一些简单的概述，并尝试通过此次AF3的发布，向大伙分享一下自己对未来
AI4S的一些思考和灵感启示：↓
算法架构上的创新与应用价值突破
算法架构创新
AlphaFold 3的这些能力来源于其新一代架构和涵盖生命体内所有分子的训练。模型核心是改进版的Evoformer模
块——延续了AlphaFold 2采用的深度学习架构。

另外一方面，正如之前所述，AlphaFold 3之所以如此强大，即之所以能够覆盖所有生命分子，正是因为它所采用
的新一代架构和训练方式 - 为整个AI世界带来惊艳的Sora「扩散模型 · Diffusion Model」，已经用在了AlphaFold
3的训练中。

在处理输入后，AlphaFold 3使用类似于AI图像生成器的扩散网络生成预测结果。整个过程从一团模糊的原子云开
始，经过多个步骤，逐渐去噪，最终形成具体的分子结构。在预测类药分子相互作用方面，AlphaFold 3达到了前
所未有的精确度，是真正以全局方式计算整个分子复合物的单一模型。
在生命科学的应用探索方面：
生物分子微观世界的洞悉
每个植物、动物和人类细胞内都有数十亿个分子机器。它们由蛋白质、核酸、糖类等分子组成，但没有一个单独
的部分可以单独发挥作用。只有了解它们如何在数百万种组合中相互作用，科学家才能开始更加以一种更加全面
和完备的视角真正理解生命的过程。

7PNM - 一种普通感冒病毒的突起蛋白（冠状病毒OC43）：随着病毒蛋白（蓝色部分）与抗体（绿色）和单糖（黄
色）相互作用AlphaFold 3对7PNM的预测结果，与真实结构（灰色）高度吻合。
首先，对于蛋白质与其他分子相互作用的预测，AlphaFold 3相比现有方法至少有50%的提升，对一些重要的相互
作用类型，预测精度甚至可以提升100%。
而AlphaFold 3的诞生，则让生物分子领域的研究拓展到了蛋白质之外。如像模型输入一系列分子的信息，
AlphaFold 3就能生成它们的3D结构，展示这些分子如何紧密配合。更厉害的是，它不仅能模拟蛋白质、DNA和
RNA这样的大型生物分子，还能处理小分子如配体——许多药物都属于这一类。更甚，AlphaFold 3还能模拟这些
分子的细微化学修饰，而这些修饰是细胞健康运作的关键，失调情况下对某些疾病有着重要的影响和意义。
因此，不仅是精确预测结构，未来，研究人员可基于AlphaFold 3深入、全局以及更加系统化的视角对包含蛋白
质、DNA、RNA以及一些配体、离子和化学修饰的结构进行建模，并辅助研究人员提出大胆而深邃的科学问题，
以全新的研究范式加速研究进程。
如：以往通过实验来预测蛋白质结构大概需要四五年时间，且耗资数十万美元。而现在科学家们只需点击几下，
就能轻松看到细胞系统的全部复杂性，包括结构、相互作用和修饰。进而了解这些连接如何影响生物功能——比
如药物作用、激素产生和维持健康的 DNA 修复过程等。加速药物设计和基因组研究，开启人工智能细胞生物学的
新时代，真正地造福人类。
虚拟药物设计的进一步加速
可以说，AlphaFold 3的这种强大的结构化预测与生成能力，进一步的加速了AIDD的发展，即配体和抗体这些常

用的药物的小分子，现在都可以通过AlphaFold 3来进行更平滑的系统化纳入到AIDD的研究范式中来。

AF3具有独特折叠结构的蛋白质的阐释

AF3正确预测了一种新型抑制剂的变构结合模式

AF3正确预测了PORCN与LGK974和WNT3A肽的复合物，为临床阶段分子的抑制功能提
供了结构依据（PDB ID 7URD）
AlphaFold3 所涵盖的更广泛的药物设计能力包括可以预测药物中常用的分子，例如配体和抗体，这些分子与蛋白
质结合，改变它们在人类健康和疾病中相互作用的方式。同时，AlphaFold3 在预测类药物相互作用方面实现了前
所未有的准确性，包括蛋白质与配体的结合以及抗体与其目标蛋白质的结合。
如：AlphaFold3 比 PoseBusters 基准测试中最好的传统方法准确率高 50%，无需输入任何结构信息，这使得

AlphaFold3 成为第一个超越基于物理的生物分子结构预测工具的人工智能系统。预测抗体-蛋白质结合的能力对于
理解人类免疫反应的各个方面和新抗体（一类不断增长的治疗方法）的设计至关重要。
因此，未来药物设计的成功率会在这种效率以及范式的进一步突破下大大提高，同时在微观领域能够以更全面和
深邃的视角探索疾病靶点发现背后更底层的生物过程与机制，针对现有靶点难以达到的创新方法，未来也有可能
在AlphaFold 3的帮助实现突破。
AlphaFold Server：与全世界共享的免费工具

此外，谷歌DeepMind团队也会负责任地与世界共享AlphaFold 3的力量。谷歌DeepMind将会推出全球最准确的工
具AlphaFold Server，用于预测蛋白质如何在细胞内与其他分子相互作用。这是一个免费平台，允许全球科学家进
行非商业性研究使用，包含免费的2亿蛋白质结构数据库。
这个平台，可谓意义重大，实验性的蛋白质结构预测，原本需要花费读个博士学位的时间，以及数十万美元的费
用。而按照当前实验结构生物学的发展速度，这本需要数亿researcher-year的工作。科学家能够基于平台上的工
具集全面观察细胞系统的复杂性，包括结构、相互作用和修饰，药物作用、激素生成和DNA修复如何影响生物功
能，从此都将被揭示。
当然，处于商业化利益考虑，AlphaFold 3的使用上也会受到很多限制，与RoseTTAFold和AlphaFold 2不同，研

究者们无法运行自己的AlphaFold 3版本，也无法公开AlphaFold3的底层代码，或模型训练后获得的其他信息。
他们能做的，就是使用「AlphaFold 3服务器」，输入自己选择的蛋白质序列和一些辅助分子。而且，对
AlphaFold 3服务器的访问也是受限的。目前每天研究者只能进行10次预测，且无法获取与潜在药物结合的蛋白
质结构。
AlphaFold 3带给AI4S的灵感启示
昨天清晨，在看到谷歌DeepMind团队发布了AlphaFold 3模型，心想终于...（因为作者本人当前也服务于人工智能
生物医疗领域）能看到在生物微观token化的世界重AIGC大模型所激起的这一波浪花，泛起的这一层涟漪。
因此，灵感来源于Alphafold3在预测和探索生命本质的问题上，同时结合之前所撰写的技术文章「融合RL与LLM
思想，探寻世界模型以迈向AGI」中部分观点进行一些延展思考，思考过程中记录的内容如下：
不管是人类信息世界中的自然语言符号tokenzie表示，还是生物微观领域中氨基酸序列或分子结构的符号
tokenzie表征，又或是当前计算机理解、交互、执行等的编程语言或指令集tokenzie执行模式，甚至在抽象概念
世界中人类数学巨匠们所构建的数学形式化证明体系中所囊括的tokenize媒介，如果能够在所构建的认知流形空
间中成为一种内涵完备且平滑优雅的数据分布或知识语义承载，是否能够除了像当前LLMs那样体现AIGC在语言多
任务和通用泛化能力外？也能够在未来AI4S的范式下，通过探寻LLM大规模预训练与RL思想机制充分且完备的融
合，实现构筑对复杂模式或抽象概念（未被人类所发现的复杂科学问题）探索提供更加多元(概念)、多态(模态)、
多模(模式)的tokenize范畴，在这一进程中，也许正是由于这种多样、开放、灵活而具备弹性且可向量化的3·多分
布表征形式，为复杂的科学规律、抽象的数学概念、恢宏而完备的理论统一，微观而深邃的作用机理等提供可行
的认知流形探寻方式和路线。
结合近期自己对“群论”思想内涵的温故，未来是否也可以针对这种AI4S范式背后所隐藏的抽象数学结构定义或声
明为特定的“群”来进行针对群本身结构和性质深入的探索和研究呢？即将真实世界各领域、跨尺度、多模态事物
映射为tokenize的世界中，通过某种机制（如某种RL形式的RL-self play或RL-AIF）实现对tokenize世界中多样化
token流形分布或结构构象的重整式探寻，并最终能够辅助人们挖掘并探索人类未触达的未知领域以达到创新发
现。

数学天才伽罗瓦 · 群的概念最早来自多项式方程的研究，是英年早逝的法国数
学天才埃瓦里斯特·伽罗瓦(Évariste Galois，1811—1832)在20岁左右提出的
关于群论：
随着数学研究越来越深入，人们已经从为具体应用问题寻找数学答案发展为揭示问题背后的更加抽象和深刻的内
在特征和规律，在描述数学问题时也越来越脱离自然语言不严密、不精确的松散形式，而变得越来越术语化和符
号化，使得一般人难以理解，甚至不研究该领域的数学家也常常一头雾水。群论就是这样的一个代表。
顾名思义，群论当然是研究群的理论。群是什么呢？在数学上，一个群并不仅仅是一群东西（元素）的集合，同
时还是对操作特性（计算特性）的声明，声明规定了群如何进行运算以产生更多的元素。比如，全体整数的加法
就构成了一个群。
群的概念最早来自多项式方程的研究，是英年早逝的法国数学天才埃瓦里斯特·伽罗瓦(Évariste Galois，1811—
1832)在20岁左右提出来的。
伽罗瓦在研究当时代数的中心问题——五次以上的一元多项式方程是否可用根式求解时，发现了任意不可约的代
数方程的根不是独立的，而是能用另一个根来表示。这种关系可以对根的所有可能进行置换，从而构成一个置换
群。伽罗瓦将代数方程的解抽象为它们相应的代数结构，根据相关的群的性质来判断方程是否有解，从而用它彻
底解决了这个问题。在某个数域上，一元n次多项式方程的根之间的某些置换关系所构成的置换群也因此被叫作
该方程的伽罗瓦群。
在数论研究中，高斯使用抽象的代数理论研究整数和有理数的性质，其中也涉及群的概念。拉格朗日也曾提出过
一个以他的名字命名的定理，揭示了一种特定整数群的性质。这些都成为导致群论产生的主要因素。
在新型几何（如双曲几何和射影几何）形成之后，德国数学家菲利克斯·克莱因(Felix Klein)利用群论以更连贯的
方式来组织它们。1872年，克莱因发表了著名的埃尔朗根纲领(Erlanger Programme) ，给出了一个影响深远的
建议：群使用代数方法抽象对称性的概念，是组织几何知识时最有用的方法。几何的分类可以通过无限连续变换
群来进行。每种几何语言都有自己适用的概念。例如，射影几何可以很准确地谈论圆锥截面，但对于圆和角度就
显得无能为力，因为这些概念在投射变换下不是不变的。用对称群的子群的相互关系来解释就可以把几何的多种
语言联系在一起。这种几何中的无限变换群的理论成为导致群论产生的第三个主要因素。
这三个主要因素都是数学家们在研究自己领域里的特定问题时，发现和总结出的特定数学元素在运算下的结构特
点，当他们对这样一些特点进行归类定义时，群的具体概念就自然而然地产生了。用数学的语言来说，群表示一
个满足封闭性、结合律，有单位元、有逆元等要求的二元运算的代数结构。
时至今日，群的概念已经普遍地被认为是数学及其许多应用中最基本的概念之一。它不但渗透到几何、代数拓扑
学、函数论和泛函分析中，而且在其他许多数学分支中起着重要的作用，形成了一些新的学科，如拓扑群、李
群、代数群、算术群等。它们还具有与群结构相联系的其他结构，并在结晶学、理论物理、量子化学、编码学和
自动机理论等方面都有重要的应用。
从19世纪50年代开始，群论的迅猛发展标志着数学的性质发生了一次深刻的变化。以前方程被看成一整套实际
运算的表达，方程里无数的可能数字用字母（常量）或符号（变量）代替。但随着群论的崛起，人们开始把注意
力转移到方程的数学结构上，研究这些结构背后更加抽象的特征和规律，单纯的数字本身正在数学中淡去，数字
背后隐藏的结构和蕴含的规律成为现代数学研究的主要内容。数学从来没有变得如此抽象、深刻和更具普遍性，
这也打开了人们重新认识宇宙的大门。
Q*猜想
好吧..终于到它了...Q-star，先来看下去年底来自LeCun的两篇推文...

当然，在当前各界，充斥着很多关于Q*猜想的文章或者论文发表，但我猜想，结合本文核心要点内容所述，通往
Q*的路途也许是通过LLMs融合RL的方法来进行实现的，尽管这里面会有很多可想而知的大量、复杂前期数据准备
工作，而这也是为super alignment做出的必要准备，正如在「中篇」向大家阐释的那样，要想实现对世界中存在
着可用token表征的多种模式（pattern）的泛化映射结构，包括系统一、系统二中的直觉与推理pattern，RL中的
AI4S的过程pattern，World Models/Sora中的物理世界模拟的pattern，可以想象这里面对于前期数据工程相关
工作的挑战还是非常巨大的，但OpenAI一贯善于采用简单暴力的方法来解决，只不过直到现在为止，我们仍不得
而知。同时，现在在产业界或学术界也普遍认为Q* 很可能是 Q 强化学习和 A* 搜索这两种 AI 方法的结合。”
回顾：如果大家针对Q*有进一步兴趣，建议大家回顾一下本篇文章的「上篇」和「中篇」中相关内容，也可以为
Q*的深入理解有一些铺垫：
其中在「上篇」中的后半部分，提及了相关“由Mistral 基于其微调的Zephyr 7B论文中的AIF+DPO(不同于RLHF

PPO的算法)算法的延展性思考”。
在「中篇」其中的RL与LLM本质探寻过程中尝试对这一问题进行了一些更深刻背后理论的阐释，包括从回顾AI历
史、当前的RLAIF再到self-play下的超级对齐..并最终给出了基于“tokenize世界中关于数据复杂分布互映射上，并
抽象其底层数学概念中的数据流形分布再到认知流形分布的阐释。”
另外，近日(2024/04/26更新补充)，斯坦福大学一个团队的一项新研究似乎为这一研究方向的潜力提供了佐证，其
声称现在已经取得非凡成就的「语言模型不是一个奖励函数，而是一个 Q 函数！」由此发散思维猜想一下，也许
OpenAI 秘密的 Q* 项目或许真的是造就 AGI 的正确方向（或之一）。相关论文解读及相关论述如下：

• 论文标题：From r to Q∗: Your Language Model is Secretly a Q-Function
• 论文地址：https://arxiv.org/pdf/2404.12358.pdf
在对齐大型语言模型（LLM）与人类意图方面，最常用的方法必然是根据人类反馈的强化学习（RLHF）。通过学
习基于人类标注的比较的奖励函数，RLHF 能够捕获实践中难以描述的复杂目标。研究者们也在不断探索使用强化
学习技术来开发训练和采样模型的新算法。尤其是直接对齐方案（比如直接偏好优化，即 DPO）凭借其简洁性收
获了不少拥趸。
直接对齐方法的操作不是学习奖励函数然后使用强化学习，而是在上下文多臂赌博机设置（bandit setting）中使
用奖励函数与策略之间的关系来同时优化这两者。类似的思想已经被用在了视觉 - 语言模型和图像生成模型中。
尽管有人说这样的直接对齐方法与使用 PPO 等策略梯度算法的经典 RLHF 方法一样，但它们之间还是存在根本性

差异。
举个例子，经典 RLHF 方法是使用终点状态下的稀疏奖励来优化 token 层面的价值函数。另一方面，DPO 则仅在

上下文多臂赌博机设置中执行操作，其是将整个响应当成单条臂处理。这是因为，虽然事实上 token 是一次性只
生成一个，但研究强化学习的人都知道，密集型奖励是有益的。
尽管直接对齐算法颇引人注意，但目前人们还不清楚它们能否像经典强化学习算法那样用于序列。
为了搞清楚这一点，斯坦福这个团队近日开展了一项研究：在大型语言模型中 token 层面的 MDP 设置中，使用二

元偏好反馈的常见形式推导了 DPO。
他们的研究表明，DPO 训练会隐含地学习到一个 token 层面的奖励函数，其中语言模型 logit 定义最优 Q 函数或

预期的总未来奖励。然后，他们进一步表明 DPO 有能力在 token MDP 内灵活地建模任意可能的密集奖励函数。
这是什么意思呢？
简单来说，该团队表明可以将 LLM 表示成 Q 函数并且研究表明 DPO 可以将其与隐式的人类奖励对齐（根据贝尔

曼方程），即在轨迹上的 DPO 损失。

并且他们证明这种表示可以拟合任何在轨迹上的反馈奖励，包括稀疏信号（如智能体应用）。
实验
他们也进行了实验，论证了三个可能对 AI 社区有用的实用见解。
第一，他们的研究表明尽管 DPO 是作为上下文多臂赌博机而派生出来的，但 DPO 模型的隐含奖励可在每个

token 层面上进行解释。
在实验中，他们以定性方式评估了 DPO 训练的模型是否能够根据轨迹反馈学习 credit assignment。有一个代表性

示例是商讨工作就职的场景，图 1 给出了两个答案。

其中左边是正确的基础摘要，右边是经过修改的版本 —— 有更高层的职位和相应更高的工资。他们计算了这两个
答案的每个 token 的 DPO 等价的奖励。图 1 中的每个 token 标注的颜色就正比于该奖励。
可以看到，模型能够成功识别对应于错误陈述的 token，同时其它 token 的值依然相差不大，这表明模型可以执行

credit assignment。
此外，还可以看到在第一个错误（250K 工资）的上下文中，模型依然为其余 token 分配了合理的值，并识别出了

第二个错误（management position）。这也许表明模型具备「缝合（stitching）」能力，即根据离线数据进行组
合泛化的能力。该团队表示，如果事实如此，那么这一发现将有助于强化学习和 RLHF 在 LLM 中的应用。
第二，研究表明对 DPO 模型进行似然搜索类似于现在很多研究中在解码期间搜索奖励函数。也就是说，他们证明

在 token 层面的阐述方式下，经典的基于搜索的算法（比如 MCTS）等价于在 DPO 策略上的基于似然的搜索。他
们的实验表明，一种简单的波束搜索能为基础 DPO 策略带来有意义的提升，见图 2。

第三，他们确定初始策略和参考分布的选择对于确定训练期间隐性奖励的轨迹非常重要。
从图 3 可以看出，当在 DPO 之前执行 SFT 时，被选取和被拒绝的响应的隐含奖励都会下降，但它们的差距会变

大。

当然，该团队最后也表示，这些研究结果还需要更大规模的实验加以检验，他们也给出了一些值得探索的方向，
包括使用 DPO 让 LLM 学会基于反馈学习推理、执行多轮对话、充当智能体、生成图像和视频等。
以下引入文本「上篇」中关于DPO论述内容的回顾：
首先我们从Self-Play或Synthetic Data本身的意义上尝试进行一下思考的延展，这里由于Synthetic Data本身是建

立在Self-Play的机制之上形成的，而Synthetic Data有很多种途径（RLAIF方法中的AI Generate与AI feedback即
是其中一种途径），其中Self-Play即是一种看似带有目标场景性的数据生成途径，这个目标场景即是Self-Play中
所处的带有一定目标性的模拟环境。而Synthetic Data最终会在后续过程中用于AMIE模型的Fine-Tuning。而为
了更深入的理解Fine-Tuning的意义，则需要一步步回溯到合成的数据意义再到如何合成的数据，即数据的合成
目标所带来的合成数据对整个模型用于模拟环境中的医学知识与能力空间Fine-Tuning的价值与意义。因此接下
来我们将目标聚焦在核心的Self-Play之上。
在本篇论文中，Self-Play采用了类似Multi-Agent的思想，包括Patient Agent、Doctor Agent、Critic以及

Moderator等角色，在整个自循环self-play过程中，我们发现经过多角色交互过程，在数据层面会合成扩展更多
围绕诊疗环境的多种医疗条件和医学要素，而这些复杂的条件和要素又会作为模型非原始信息作为输入通过多角
色进行进一步的模型生成、决策、反思或评判，是的，这里的关键就是这些「合成扩展的非原始信息作为输入
即上下文提示」，它将在一步步的推理链条中将模型按照规定的情景引导至最终更标准、精确、更高泛化性的
结果之上，而最终将模拟的对话结果用于模型的Fine-Tuning当中来，以保证对模型结果输出的正确性。这里可
能大家会问，为什么需要如此繁琐的过程来合成数据呢？LLM自己不能直接在推理中解决问题吗？难道在采用大
量的数据LLM预训练过程中并没有见到过这些数据？如果没见到，为什么模型还能通过在多角色的交互中合成出
来？如果见到了这些数据，为什么还需要SFT，为什么还需要Multi-Agent、COT、TOT这一过程？当然要要完全
回答上述这些问题，可能需要对LLM的预训练机制和原理进行展开和剖析，在了解了其训练本质后，也许会逐步
找到解决上述疑问的办法。
在这里尝试再进行一些延申，试想一下，在LLM预训练过程中真实世界数据样本是真正足够的吗？与某个领
域的任务对应的真实世界数据样本的组织和分布是合理的吗？即用于LLM pre-training的人类认知下的训练样本
空间的「token」序列组织形态是天然COT的吗？LLM在预训练过程中所预测的下一个token学会的是什么？预训
练时是否能够覆盖空间所有的复杂情况？模型提示词工程 Prompt Engineering与模型参数的Fine-Tuning的本质
普遍性？基于Multi-Agent环境下，是否能达成类AlphaGO这样的self-play博弈环境的学习？等等这一系列问题似
乎将会将我们带入到一个更本质的探寻空间。
在进行上述问题思考和探寻的过程中，刚好也联想到去年了解到的Mistral 7B，而由Mistral 7B也进一步了解到基

于其微调的Zephyr 7B论文中的AIF+DPO(不同于RLHF PPO的算法)算法的思考，包括从Anthropic的RLHF到
Cluade的RAILF，。在这里除了让大众眼前一亮的DPO算法（DPO利用从奖励行数到最优策略的解析映射，使
得将奖励函数上的偏好损失函数转换为策略上的损失函数）之外，我想在AIF这一环节所带来的意义也是非常重
大的。
在Zephyr中，如下图所示，其三步骤的训练方式与chatGPT的三阶段训练方式有着看似较大的差异：

Step1 - sSFT：通过大规模、自指导式数据集(UltraChat)做精炼的监督微调(dSFT)
Step2 - AIF：通过集成收集AI反馈(AIF)聊天模型完成情况，然后通过GPT-4(UltraFeedback)进行评分并二值化
为偏好
Step3 - dDPO：利用反馈数据对dSFT模型进行直接偏好优化·DPO
其中这里的Step2 - AIF，即某种程度上的一种self-play，也是通过多模型prompt生成来进行的一种RL，试想，通
过其中的AIF，对于模型最终所采用的DPO算法的SFT过程里，其用于最终模型的SFT所训练的AIF数据集在与原
始pre-training数据集在数据(tokens)序列组织构象上应该有着一些差异，而这种差异是之前原始数据集在用于模
型pre-training中很难找到的，而这也是一种Synthetic Data的路径，关键是这种Synthetic Data与原始Data上述中
的那些特征与知识分布差异。
DPO算法：如下公式的解析通俗来讲就是：当一个答案是好的答案时，模型要尽可能增大其被策略模型生成的概
率，而当一个答案是差的答案时，模型则需要尽可能降低其被策略模型生成的概率。

以上，我们在RL×LLM上开了一个小头，了解到了一些两种算法或训练模式的融合例子，并尝试做出了一些探索
性思考，接下来，将上述模型case以及延展的思考进行一下沉淀，回归第一性原理进行更进一步的本质探寻，以
求找到两者之间所隐含的的共性、差异以及之所以呈现出当前技术发展路径与现状的必然性..
大家如果有兴趣可以继续参考如下来自于DPO的简要概述：
DPO方法的定义与工作原理
直接偏好优化（DPO）是一种新兴的机器学习方法，它旨在直接通过用户反馈来优化语言模型的输出。与传统的
强化学习方法不同，DPO不依赖于一个预先定义的奖励函数。相反，它使用从用户反馈中提取的信号来调整模型
的行为，使其更加符合用户的偏好。与经典的RLHF不同，DPO（如Rafailov等人在2023年推导的）完全保持在上
下文bandit设置中，并且还使用了基于bandit的偏好模型。为了避免使用RL算法，DPO使用了KL-contextual
bandit版本的RL问题的众所周知的闭式解：

其中π∗是最优策略，Z(x)是归一化的分区函数。DPO重新排列这个方程，以解出奖励：

将这个关系代入用于奖励建模的标准二进制交叉熵损失函数中，得到DPO的损失方程，因为分区函数Z(x)从
Bradley Terry模型中消除。

在DPO中，模型的每个输出都被视为一个“臂”，而用户的反馈则被用作评估这些“臂”的“奖励”。通过这种方式，模
型学习哪些类型的输出更可能获得正面的用户反馈，并倾向于在未来的预测中生成类似的输出。
DPO与传统强化学习方法的对比
传统的强化学习方法通常依赖于一个明确的奖励函数来指导模型的学习过程。这个奖励函数定义了在给定的状态
和行动下应该获得的奖励。但是定义一个能够准确反映复杂任务目标的奖励函数往往是非常困难的。DPO方法的
一个关键优势在于它不需要这样的奖励函数。它直接利用用户的反馈来指导模型的学习，这使得它在处理那些难
以用传统奖励函数描述的任务时更加有效。
DPO在实际应用中的优势
DPO方法在实际应用中的一个主要优势是它的灵活性和适应性。由于它直接依赖于用户反馈，DPO能够适应用户
的变化偏好，并且能够在没有明确奖励函数的情况下进行优化。此外DPO还能够处理那些传统强化学习方法难以
处理的任务，如那些需要细粒度评估和长期策略规划的任务。通过直接从用户反馈中学习，DPO能够在这些复杂
的任务中找到有效的策略。DPO为优化语言模型提供了一个直接、灵活且高效的方法，特别是在那些传统强化学
习方法难以应用的领域。
令牌级别的奖励函数与策略优化
直接偏好优化（DPO）方法在令牌级别的应用中，展现了其独特的优势。在这个层面上，每个令牌（即单词或字
符）都被视为一个决策点，模型需要在这些决策点上做出最优选择以生成最终的文本输出。DPO通过评估每个令
牌对整体输出质量的贡献来优化策略，这种方法允许模型在生成文本时进行更精细的调整。在令牌级别上，奖励
函数的作用是为每个可能的令牌选择提供一个评分，这个评分反映了该选择对于达成目标的贡献程度。DPO方法
通过用户反馈来动态调整这些评分，使得模型能够学习到哪些令牌选择更能满足用户的偏好。
DPO在组合泛化中的应用
组合泛化是指模型的能力，能够将学到的知识和模式应用到新的、未见过的情境中。DPO通过在令牌级别上进行
优化，为模型提供了学习如何将不同的令牌组合成有意义和符合用户偏好的输出的能力。在实际应用中，这意味
着DPO训练的模型能够更好地处理新的用户查询和任务，即使这些任务在训练数据中没有直接的例子。通过这种
方式，DPO有助于创建更灵活、更适应性强的语言模型，这些模型能够在多变的真实世界情境中表现出色。DPO
在令牌级别的解释能力为语言模型的优化提供了一个强大的工具，它通过精细的信用分配和组合泛化能力，使模
型能够更好地适应用户的具体需求和偏好。这种方法的应用前景广阔，从提高对话系统的互动质量到创建更准确
的文本生成模型，DPO都显示出了巨大的潜力。
经典搜索算法的原理
经典搜索算法在人工智能领域中扮演着重要角色，特别是在决策问题和规划任务中。这些算法旨在在大规模的状
态空间中寻找最优解或接近最优解的策略。1.深度优先搜索（DFS）：从根节点开始，沿着一个分支一直探索到
底，然后回溯到上一层，继续探索其他分支。DFS通常用于树结构或图搜索。2.广度优先搜索（BFS）：从根节点
开始，逐层探索，先探索所有相邻节点，然后再探索下一层。BFS通常用于图搜索和状态空间搜索。3.A*搜索：结
合了启发式信息和实际代价的搜索算法。它使用估计的最优路径成本（启发式函数）来指导搜索，以便更快地找
到目标状态。
P vs. NP 的五十年
不管是通往未来的AGI还是World Model或World Simulator，我们可能仍旧会在持续的路途探寻中遇到P/NP这个存
在于计算机领域50年的老大难问题，当然这也是对于是否能够彻底实现AI4S的一种侧面印证，其中个人认为P/NP
问题似乎在某种中与AGI或AI4S相互影响亦或携头并进着，甚至反过来某种程度上，P/NP会指引或驱动着通用人
工智能的发展...如下这篇文章来自网上内容的整理并在其中进行了注释说明
P和NP问题一直是计算机领域的老大难问题，那么在近50年间，人们对这个问题有什么深入的研究呢？让我们在
本文中深挖这个世纪难题。
在1971年5月4日，伟大的计算机科学家和数学家Steve Cook就在他的论文《定理证明程序的复杂性 The

Complexity of Theorem Proving Procedures》中首次向世界提出了P和NP的问题。在50年后的今天，世人仍然在
试图解决这个计算机领域中最著名的问题。其实在12年前（2009年），我也曾经就该问题进行了一些讨论，大家
可以看之前的《P与NP问题的现状》综述。
文章地址：Fortnow, L. The status of the P versus NP problem. Commun. ACM 52, 9 (Sept. 2009), 78–86.
https://doi.org/10.1145/1562164.1562186
计算机理论在近些年并没有得到很大的发展。从2009年那篇文章发表以来，P与NP问题及其背后的理论并没有发
生显著的变化，但计算世界确实发生了变化。比如说云计算，就推动了社交网络、智能手机、经济、金融科技、
空间计算、在线教育等领域的飞速发展。更重要的是，云计算还帮助了数据科学和机器学习的崛起。
在2009年，世界前10大科技公司中出现了一家独大的场面——微软公司独孤求败。但是截至2020年9月，市值前
七名的公司分别是苹果、微软、亚马逊、Alphabet（谷歌）、阿里巴巴、Facebook和腾讯，彼此平分秋色。不光
是大公司的变革明显，计算机人才的需求量也是如此。据统计，在2009到2020年间，美国的计算机科学专业毕业
生的数量增加了三倍有余，但这还是无法满足市场上对该领域人才的需求量。
P和NP的问题作为数学界和计算机界的一个难题来源已久，它被列入克莱数学研究所的千年难题之一。而且这个
组织还为能够攻克该问题的研究人员提供了上百万美元的奖金悬赏。我会在文章的末尾用一些例子来解释P和NP
问题，这虽然没能让我们从本质上对其有更多的认识，但是也能看出来P和NP的很多思考和成果推动了这个领域
的研究和发展。
P和NP问题
如果有人问你，你能不能在微博上找到一些人，他们彼此之间都是朋友，这帮人的数量大概是300左右。你会怎么
回答这个问题？
假如你在一个社交平台企业工作，而且可以访问整个平台的数据库，也就是能看到每个人的好友列表，那你可以
尝试遍历所有的300人群组，然后挨个儿看他们是否有相同的关注人群，如果是，则他们被称为一个团（Clique
）。但是这样算法的计算量太大，数量也太多了，通常无法全部遍历。
你也可以耍耍小聪明，也就是从小的群组开始，然后慢慢的将这个小群组扩大，纳入那些彼此之间都是好友的
人。当然实际做起来可能也有难度。其实从理论上来说，这个问题没有最好的解决方案，没有人知道到底存不存
在比挨个遍历更好的解决方案。
这个例子其实就是一个典型的P和NP的问题。NP代表了可以有效检验一个解的准确性的一类问题。比如当你知道
有300个人可能构成一个团，你就可以快速的检验出由他们两两配对的44850对用户到底是不是都是彼此的好友。
成团问题（clique problem）是一个NP问题。
P则代表了可以有效找到解的问题。我们不知道这300个目标人群的问题是否也是具有P的可解性质。
实际上，令人惊讶的是，成团问题具有“NP完全”的性质。也就是说，当且仅当P=NP时，我们才可以快速有效地解
决成团问题。
许多其他问题都具有NP完全的性质，比如3 Coloring问题（是否可以仅使用三种颜色对地图进行染色，然后让相
邻的两个地块没有相同的颜色）、旅行商问题（通过城市列表找到最短路径，让这个旅行者能够在路径所有城市
之后回到出发城市），等等。
形式上来说，P代表“确定性多项式时间”，也就是可以在输入长度的多项式限定时间之内解决的一类问题。NP则
代表“非确定性多项式时间”。在实际的算法开发中，我们最好可以换个角度看待P和NP的问题：我们可以将前者
视为可有效计算，而将后者视为可有效检查的问题。
大家如果想更多的了解P和NP的问题，可以去看看2009年的综述论文，或者一些其他的科普书籍自行了解。也有
一些比较偏正式的介绍工作，比如Michael Garey 和 David Johnson在1979年出版的书籍，他们的这本书对于想了
解NP完全问题的读者来说一定不能错过：
Garey, M. and Johnson, D. Computers and Intractability. A Guide to the Theory of NP-Completeness.W.H.
Freeman and Company, New York, (1979).
为什么要讨论P和NP问题
在1971年的那个星期二的下午，Cook在ACM计算理论研讨会上发表他那篇关于NP完全的论文时，他证明了可满
足性是NP完全的，而重言式是NP难的。论文中也推断说Tautology是不具备P特性的一个问题，当然，当时没有对
这个问题进行很好的证明。但无论如何，这篇论文以及其中的证明方法，标志着复杂性理论的重大突破。
想要去证明一个数学概念通常具有很大挑战。算法和证明的基础概念至少可以追溯到古希腊时期，当然，他们从
来没考虑过NP和P这样的问题。高效计算和非确定性的理论基础是在1960年代才发展起来的。但P和NP的问题在
这之前很久就已经被提出来了，只是我们没有给它们正式冠名而已。
库尔特·哥德尔在1956年曾经写过一封给冯·诺依曼的信。在信中他就初步描述了P和NP问题。这封信直到1988年
才被发现，并广为流传。
Richard Karp真正意义上首次将P和NP问题引入大家视野。他在1972年的论文中介绍了该问题，并随后得到广泛
的关注。
我们知道很多有名的组合问题都是NP完全的，包括Clique, 3-coloring和旅行商问题。1973年，当时在俄罗斯的
Leonid Levin在他两年前独立研究结果的基础上发表了一篇新的论文，并在这篇论文中定义了P和NP问题。当
Levin的论文传播到西方的时候，P和NP问题也已经确立了作为计算领域最重要问题的地位。
3
Optiland
Russell Impagliazzo在1995年的一篇经典的论文中描述了P和NP问题具有不同程度可能性的5个层级：
算法：P=NP或理论上等效，例如NP的快速概率算法(fast Probilistic algorithm)

1. 启发式：NP问题在最坏的情况下很难求解，但平均来说还是可以得到求解的
2. Pessiland：我们可以轻松的创建困难的NP问题，这是所有可能中最糟糕的，因为我们既不能在平均意义上解
决难题，也不能从这些问题的难度中获取任何明显的优势
3. Minicrypt：存在加密的单向函数的问题，但我们没有公钥加密
4. Cryptomania：公钥密码学，也就是说，两方可以通过公开渠道来交换加密信息，然后通过公钥解密
上述的5个层级没有正式的定义，都是通过人们对P和NP问题的了解人为规定的。但是人们普遍认为，
Cryptomania这个等级的可能性最高。
Impagliazzo借鉴了P和NP理论中的核心思想——“我们无法拥有一切”。
我们或许可以解决困难的NP问题，或者解决密码学的重要关键，但是不能将两者同时攻克。
不过，也许我们正在走向事实上的Optiland——机器学习和软硬件优化等方面的长足进步让我们能够在一定程度
上解决当年无法设想的问题，包括语音识别、蛋白质折叠解析等。但是大多数情况下，我们的密码协议仍然是安
全的，所以不用太担心。
在2009年的综述中，我曾经在其中“如果P=NP怎么办”的章节中提出，通过使用奥卡姆剃刀法则，学习将会变得容
易——我们只需要找到与数据一致的最小程序，也就是问题的关键核心。那么此时，原本十分难以解决的视觉识
别、语音识别、翻译以及其他的任务都会变得微不足道。我们还将对天气、地震和其他自然现象做出更好的预测
和理解，以及建模。
今天，我们可以使用人脸识别解锁手机，可以和一些智能设备语音对话来提出问题并且得到理想的回答，可以将
我们说的话、输入的文字翻译成另外的语言。我们的手机会收到关于天气和其他突发事件的警报，它的预测效果
比我们之前十几年前能做到的效果好的多。与此同时，除了对小密钥长度进行类似暴力破解的攻击之外，我们的
密码学基本上还是很鲁棒和安全的。那么现在，让我们看看计算、优化和学习方面的最近进展如何将我们带到
Optiland中吧！
解决困难问题
2016年，Bill Cook和他的同事决定挑战一个问题，就是如何以最短的距离访问英国的每一家酒吧。他们列出了已
知的24727家酒吧，并且迈开腿，真的去走遍这些酒吧。这是一次跨越45495239米，大概28269英里的步行之
旅，比绕地球一圈还要长。
其实Cook做了个弊，他没有真的走去每一家酒吧，他忽略了其中一些酒吧来让这次步行没那么夸张。这个事情在
英国的媒体中宣传了之后，很多人在底下留言说：你没有来我家旁边的这个酒吧呀。于是，Cook和他的公司重新
开始计划，将酒吧的名单增加到49687个，整体的旅行长度就达到了惊人的63739687米，也就是39606英里。但
其实，相对于之前的那个旅行，这趟新的寻酒之旅其实只需要多走40%的距离就能达到两倍多数量的酒吧。
遍历英国49687家酒吧的全览图
这种酒吧遍历之旅在某种程度上就是旅行商问题的变种，也就是最著名的NP完全问题之一。通过所有49687家酒
吧的可能游览次数约等于3加上后面211761个零这个量级。当然了，Cook的计算机不会搜索整个集合，而是使用
了多种优化的技术。更令人印象深刻的是，这次旅行带有基于线性程序对偶性的最优性证明。
除了旅行商问题之外，我们还看到了求解可满足性和混合整数规划方面的重大进步，也就是线性规划的一种变
体，其中一些变量的解要求是整数。当我们使用高精度的启发式算法，使用快速的处理器、专用的硬件系统和分
布式的云计算进行辅助的时候，人们通常可以解决实际中出现的具有好几万个变量和几十上百万个约束的问题。
面对NP问题时，人们通常可以将NP问题表述为可满足性或混合整数规划问题，并将其扔给目前最好的求解器来借
助计算机的力量，自动找到答案。这些工具已经成功用于电路和代码的验证、自动化测试、计算生物学、系统安
全、产品和包装设计、金融交易，甚至是一些困难的数学问题求解之中了。
数据科学和机器学习
人们通常无法忽视机器学习在近些年带来的革命性影响，尤其是神经网络。人工神经网络建模的概念基础，基本
上是计算加权阈值函数。这种思想起源于1940年代Warren Mcculloch和Walter Pitts的工作。在1990年代，Yoshua
Bengio、Geoffrey Hinton和Yann Lecun开发了反向传播算法，来将深度神经网络的层数加深，并得到非凡的结
果。
与此同时计算机硬件计算、存储等方面出现突破，那些更快、更加分布式的计算单元，那些专用的硬件和海量的
数据有助于推动机器学习完成很多类似人类的功能。ACM认识到Bengio 、Hinton和LeCun的贡献，并在2018年为
他们颁发了图灵奖。
有的同学可能会问，机器学习怎么和P、NP问题相联系呢？奥卡姆剃刀说：如无必要，勿增实体。如果P=NP，我
们可以用这个思想来创造强大的学习算法：找到与数据一致的最小电路。即便P≠NP，机器学习也可以学习并且近
似这种思想，这就赋予它强大的能力。
尽管如此，神经网络也可能不是真正的“最小”的电路，当然或许可能是尽量小的。今天我们所使用的深度学习方法
通常是结构固定的，能够变动的都是神经元连接上的权重。为了能够实现足够泛化的表达能力，这些网络通常有
几百上千的权重数量。这就限制了深度网络的能力（也就是不够简单）。它们可以在人脸识别上做的很好，但是
无法根据示例学习乘法。
通用分布和GPT
让我们考虑二进制字符串的无限集上的分布场景。我们虽然不能拥有均匀分布，但是可以创建一种每个长度相同
的字符串都有相同概率的分布。但是，有些字符比其他字符更重要。比如π的前一百万位数字比随机生成的一百万
位数字更有意义。
Think：这里可以与「中篇」融合RL与LLM思想，探寻世界模型以迈向AGI 中关于数据&认知构象分布上做对

比关联思考..如下图所示

我们可能希望将更高的概率放在更有意义的字符上。现在我们有很多方法能够做到这点。实际上，已经有人发现
了一种接近任何其他可计算分布的通用分布，这种分布与学习有很大的联系——例如，任何能够以小错误率学习
这个分布的算法，将可以学习所有的可计算分布。
但是问题在于，即使P=NP，这种分布通常也是不可计算的。如果P=NP，我们仍然可以通过创建一个对其他有效
可计算分布通用的分布来获取一些有用的信息。
那么我们能够从机器学习中得到什么？让我们考虑生成式预训练Transformer（GPT）。
在2020年5月GPT-3发布了，它有1750亿个参数，并且训练了4100亿个token。这些Token来自很多的文字语料
库。它能够回答问题，能够根据提示写出文字，甚至可以进行一些基础的编码工作。尽管还有很长的路要走，但
是GPT-3因其生成内容的自然性而受到广泛的赞誉。
在某种意义上，我们可以将GPT-3视作一种特殊的分布方法。我们可以在其中查看算法生成输出的概率，这是通用
分布的一种弱化版本。如果我们将通用分布限制为具有给定前缀，则会提供由该前缀提示的随机样本。GPT-3也可
以建立在此类提示的基础上，无需进一步训练即可处理范围广泛的领域知识。随着这一系列研究的发布，我们将
更接近一个可以执行内置学习的通用衡量标准：从给定的上下文中学习一个随机样例。
科学和医学
在科学方面，我们通过进行大规模的模拟来理解。例如在探索核聚变的反应过程中，我们就取得了一些不错的结
果。研究人员可以应用一种形式化的研究方法，为物理系统创建一个假设，然后使用这个假设，并且不断的使用
这个假设进行反应和模拟。如果我们得到的结果和实际不相符，则丢弃模型，并且重新开始。
当我们得到了一个强大的模型之后，我们就可以在物理模拟系统中进行很多实际实验中代价昂贵的测试了。如果
P=NP，我们可以使用奥卡姆剃刀方法来创建假设，即找到与数据一致的最小电路。机器学习技术可以沿着这条技
术路径前进，使假设的创建自动化。当我们给定数据之后，不论是通过模拟还是真正的实验得到数据，机器学习
就可以创建模型来拟合这些数据，达到最佳的匹配。我们可以使用这些模型进行预测，然后就像之前那样测试这
些预测。
虽然这些技术使我们能够找到可能遗漏的假设和模型，但是也有可能导致误报。人类通常会趋向于接受有95%置
信度的假设（这意味着20个坏假设中只有一个能够通过检验）。机器学习和数据科学工具能够让我们生成假设，
这些假设都有着脱离实际建模的风险。这就限制了它的工作范围，比如医学工作者就不能承担这些风险，他们的
诊断中如果有这些问题，那会遭到很大的麻烦。生物系统也是一种极为复杂的结构。我们知道人类的DNA形成了
复杂的编码，它描述了我们的身体是如何形成的，以及它们执行的功能。但是很可惜，我们目前对其工作原理知
之甚少。
在2020年11月30日，谷歌旗下的DeepMind发布了AlphaFold，这是一种基于氨基酸序列预测蛋白质形状和结构的
新算法。AlphaFold的预测几乎达到了实际实验构建氨基酸序列的和测量蛋白质形状相同的准确度。但是关于
DeepMind是否真正“解决”了蛋白质折叠的问题，还存在一些争议，现在评估其影响还为时过早，但是从长远的角
度来看，这可以为我们提供一种新的数字工具来研究蛋白质，来了解它们是如何互相作用，并且了解如何设计
DNA来对抗疾病。
超越P和NP问题的思考：国际象棋
NP就像是一个迷宫一样，在任意大小的棋盘上各种操作。数独也是NP完全的问题，它需要从一些正方形中给定的
数字设置中求解。但是，当我们问到谁从给定的初始设置中获胜时，我们是不是就没办法给出准确的回答了呢？
即使我们有P=NP的前提，它也不一定会给我们一个完美的国际象棋的程序来解决问题，这就像需要设计一个程
序，它保证能够让白棋走的这一步，逼迫黑棋走那一步，然后白棋再按照计划走这一步，使得黑棋...，最终是白棋
获胜。人们无法单独在P=NP上完成所有这些白棋和黑棋的交替。像这样的游戏往往被称为PSPACE－hard，即很
难计算、或使用合理数量的内存，并且在约定的时间之内求解完成的问题。根据规则的精确限制，国际象棋和围
棋甚至可能更难。
这不意味着如果P=NP，你就不能得到一个好的国际象棋程序。事实上，在某种程度上，象棋的程序体积越大，其
智能程度越高。我们可以找到一种有效的计算机程序，它可以击败所有尺寸稍小的其他程序。同时，即使没有
P=NP，计算机在国际象棋和围棋方面也变得非常强大了。1997年，IBM的深蓝击败了当时的国际象棋世界冠军。
此外，机器学习为电脑游戏带来了巨大的进步。我们讨论一下声名大噪的AlphaZero，它是2017年DeepMind开发
出来的人工智能程序。
Think：想象一下中「上篇」融合RL与LLM思想，探寻世界模型以迈向AGI 的AlphaZero中的描述..
AlphaZero使用了一种被称为蒙特卡洛树搜索MCTS的技术，这个技术为两个玩家随机移动以确定最佳的行动方
案。AlphaZero使用深度学习来预测游戏位置的最佳分布，以优化使用MCTS的获胜机会。虽然AlphaZero不是第
一个使用MCTS的工作，但是它没有任何内置的人工策略或者使用任何已有的游戏数据库。AlphaZero只学习了游
戏的规则。这就让AlphaZero在国际象棋和围棋这两个运动中大放异彩，除了交替移动和固定大小的棋盘之外，这
两个游戏在规则和目的上没有任何相似之处。DeepMind最近在MuZero上也有新动作。它甚至都没有得到完整的
游戏规则，只得到了对棋盘位置的一些表示，和合法动作列表，以及对哪些位置是输是赢有了一些了解。也就是
说，现在我们已经发展到了一个阶段，在这个阶段里，纯机器学习在国际象棋或者围棋这样的高复杂度的问题中
都能轻松击败大多数的人类或者启发式算法。人类的先验知识只会画蛇添足、碍手碍脚。对于国际象棋和围棋这
样的游戏，机器学习可以在P=NP无法满足的情况下取得成功。太不可思议了。
可解释的人工智能
许多机器学习算法似乎已经能够达到不错的效果，但是我们不知道其中的原因。如果我们仔细的去看语音翻译或
者图像识别的神经网络内部参数，很难理解它为什么会做出这样的动作或者处理。有人可能会问了，它有这个能
力就好，我们为什么要关心？以下是几个原因：信任、公平性、安全性、因果关系。
信任：我们如何知道神经网络是否正常运行了？除了检查输入和输出之外，我们无法对其他中间的变量进行分析
和理解。不同的应用程序具有不同的信任级别。如果Netflix推荐了一个很差的电影，那没什么问题，但是如果自动
驾驶汽车推荐了一个让车撞墙的转弯操作，那事儿可就大了。
1. 公平性：很多应用程序都是在训练集上进行学习的，训练集中的数据可能不是完全公平或者说没有偏见的。如
果不理解程序，那我们可能无法纠正其中的偏差和歧视。种族歧视可是一个严重的话题呦。
2. 安全性：如果我们使用机器学习来监控数据安全系统甚至安保系统，那么不可解释的机器学习模型可能无法让
你知道他存在的漏洞是什么，尤其是当我们的对手具有适应性的时候。如果我们能够理解代码和网络的结构，
就可以发现并且修复这些安全漏洞。当然，如果我们的敌人拥有代码，他们也有可能发现漏洞并针对其组织攻
击。
3. 因果关系：目前来说，我们最多可以检查机器学习算法是否只与我们想要的输出类型相关。但是理解代码能够
帮助我们理解数据中的因果关系，从而造出更好的科学理论和医学成果。
如果P=NP，我们能得到更好的计算机程序吗？如果你有一个解决NP完全问题的快速算法，你就可以用它来找到
匹配旅行商问题的最短路径，但是你不会知道为什么这种方法有效。另一方面，我们都希望能够得到可解释的算
法，因为能够深入了解其属性。在研讨会中，我们都在研究可解释的人工智能，比如ACM Fairness Accountability
and Trust会议等。
机器学习的局限性
虽然机器学习在过去的几十年间取得了令人瞩目的进展，但是这些系统远非完美。在大多数的应用中，它们还是
会被人类碾压。我们将继续通过新的和优化的算法，收集更多的数据并研发更快的硬件来提高机器学习的能力。
机器学习似乎确实有不少的局限。正如我们上面看到的，机器学习让我们无限逼近P=NP，但是永远无法达到这个
程度。比如，机器学习在破解密码方面的进展很慢，我们稍后对其进行讨论。
机器学习似乎也无法学习简单的算术关系。比如总结大量的数字规律，以及大数相乘。人们可以想象将机器学习
和符号数学工具结合起来，一定能得到很好的效果。虽然我们已经在定理的证明应用方面看到了一些进步，但是
距离梦想中的功能还比较遥远。我也正在写一篇相关的论文。
同样的，P=NP将使这些任务变得更加容易，或者至少更加易于处理。机器学习在面对和训练数据分布不同的样本
的时候，表现通常不好。这可能是由于低概率的边缘情况，例如在训练数据中没有很好的包括所有人种的时候，
对于一些国家或者种族的人的识别效果比较差。深度神经网络算法可能有数百万个参数，因此，它们可能无法达
成良好的泛化分布。如果P=NP，那就可以生成最小尺寸的模型，并且能够做出最好的泛化，但是如果我们无法进
行实验，我们永远不知道这是不是P=NP问题。
跟机器学习一样，我们目前还没有任何的工作能够接近真正意义上的通用人工智能。这个通用人工智能是指对某
个主题的真正理解，或者真正具有意识或者自我意识的人工系统。定义这些术语可能比较棘手，也具有一些争
议。就我个人而言，我目前还没见过一个正式的通用人工智能的合理定义，我只是抓住了对它概念的知觉的理解
并且总结。我怀疑我们永远不会实现真正意义上的通用人工智能，即使P=NP。
密码学
虽然我们在解决NP问题方面取得了很大的进展，但是很多密码学的领域仍旧毫无进展。包括单向函数、安全散列
和公钥密码等多种形式的加密。一种有效的NP算法，其实是能够破解所有密码系统的，除了那些信息理论上安全
的密码系统（比如一次性密码和一些量子物理学的安全系统）。我们已经看到过很多成功的网络安全攻击，但是
它们通常源于服务器糟糕的设置、很差的随机数生成器，或者人为的一些错误，几乎都不是由于密码学本身的问
题所导致的。
现在的大多数CPU芯片都内置AEC，因此一旦我们使用公钥密码技术来设置私钥，我们就可以像发送纯文本一样
轻松的发送加密数据了。加密为区块链和加密货币提供了底层的技术支持，这意味着人们对加密技术的信任十分
高，足以将现金和比特币进行交换。Michael Kearns和Lesilie Valiant在1994年的研究表明，学习最小的电路，甚
至学习最小的有界层神经网络，都可以用来分解质因数和破解公钥密码系统。但是到目前为止，机器学习尚未成
功用于破解密码协议。
可能有人会问，我们既然已经在许多其他NP问题上取得了很多的进展，为什么单单是密码学上失灵了呢？在密码
学中，我们可以选择问题，专门设计为这个场景单独设计的方法来加密，从而达到不错的效果。而其他的NP问题
通常使用通用的、通过程序自己形成的方法来执行。这些自动匹配的方法可能不是量体裁衣的，就并不是最合适
和最困难的方法。
量子计算是目前我们知道的唯一一个能够威胁到互联网公钥协议安全的存在。Shor的算法可以用于对大数进行质
因数分解和其他相关的数论计算。这种担忧可以通过几种方法来加以解决。虽然目前来看量子计算取得了一些令
人惊叹的进步，但是它距离能够破解当今的密码系统相去甚远，毕竟还不能够处理足够多的纠缠位。有人估计，
可能还得需要几十年甚至几个世纪才能真正使用Shor算法+量子计算机对目前的公钥产生威胁。另外，研究人员在
开发对量子攻击具有抵抗力的公钥密码系统方面取得了良好的进展。我们将在本文后面的部分详细介绍量子计
算。
因式分解问题，目前来说并不是NP完全的，即使我们没有大规模的量子计算机，数学上的突破也肯定有可能推导
出很高效有用的解决方案。不论我们如何看待量子计算的未来，一些拥有了多种公钥系统的计算机都可能解决因
式分解问题。
摩擦力般的复杂性
话说回来，面对这么多难以计算的问题，我们能有什么优势呢？或者说我们能从中学习到些什么呢？我想到了密
码学。但是，既然造物主让某些计算问题变得十分困难和复杂，甚至难以求解和实现，肯定是有内在原因的，这
和很多自然界中的摩擦力现象（Friction）十分类似。在物理世界中，摩擦力通常是需要我们额外付出能量做功来
克服的，但是如果没有摩擦力这种常在的阻力，我们甚至无法行走、跑步和前进。同样的，在计算机的世界里，
复杂性虽然会导致一些计算困难，但是如果没有它，我们可能就会遇到类似于无法前进般的更棘手的问题。在许
多情况下，P=NP将消除这种摩擦力。
最近发表的很多计算理论相关论文告诉我们，如果消除了摩擦力般的计算复杂性，那么会产生许多负面的影响。
例如，如果消除了计算复杂性，那么人们将不能够表露自己的思想，人们也只能够看到其他人所采取的行动，而
不知其动作背后的目的。经济学家有一个术语：偏好启示（Preference Revelation），这个现象试图根据我们所采
取的行为来推断其背后的真实目的。在过去的大量时间里，我们通常没有大量的训练数据来支持类似模型的训
练，因此这种程序也成为了一种空中楼阁般高度不精确的“艺术品”，无法实用。
时至今日，我们从人们的网络搜索记录、他们的社交账号的照片视频、游戏账号的购买记录，以及在网上的浏览
记录、现实生活中的足迹信息，以及各种智能设备中残留的隐私信息中收取大量的个人信息数据。因此数据集已
经很充足。同时，机器学习也可以拥有处理这些复杂信息的能力，因此就可以据此做出非常精确的预测和估计。
计算机对我们的了解往往比我们自己对自己的了解还要多。
我们现在的技术已经足够强大，强大到甚至能够开发出一个智能眼镜，让你戴上它就立刻知道眼前人的各种信
息，姓名、年龄、身高体重、兴趣爱好，甚至是政治偏好。也就是说，在大数据的时代，由于机器学习和大量隐
私信息的存在，本来十分复杂、几乎不可能实现的一些问题被计算机攻克，也就带来了隐私的泄露——复杂性不
再能为我们提供隐私的保护。我们需要通过法律和对企业的责任约束来保护个人的隐私安全。
计算机世界的“摩擦”现象可以超越隐私。美国政府在1978年取消了对航空公司定价的管制，因此如果旅客想要找到
一条最便宜的航线，就需要打好多个电话给很多家航空公司，或者通过旅行社来寻找。但是旅行社嘛，通常不会
尽心尽力的帮你寻找最便宜的，而是寻找对他们利益最高的那条路线。各个航空公司的生存理念不同，有的可能
致力于保持高水平的服务质量，因此价格稍贵；有些则是想要用低价来吸引更多的乘客。今天，我们可以很容易
的通过计算机程序找到最便宜的航空公司的航线信息，因此航空公司也都跑去在价格上苦苦鏖战竞争，并期望计
算出最佳的定价来提高上座率，此时服务态度和体验可能就被牺牲掉了。
计算机的“摩擦力”或者说复杂性，也有助于打击作弊问题。我在1980年读大学的时候，天天被微积分问题虐，整天
都在各种数学计算，生不如死。但是时至今日，这些微积分问题在Mathematica和Matlab面前都是弟弟，一行指令
轻松破解。我现在当老师了，在我的课程上，我甚至留不出一些网上无法搜索到的家庭作业题目来让学生训练。
更可笑的时候，我甚至可以使用GPT-3或者它的后续优化代码来生成一些家庭作业。那么当GPT之类的工具已经
可以自动回答这些很复杂的问题的时候，我们如何激励学生，或者说防止他们作弊偷懒呢？
股票交易也是一个重灾区。在过去，股票交易通常需要在一个很大的交易所中进行，就像我们在电影中看到的那
样，交易员在那里用一个很帅的手势来指挥买入和抛售，用一个眼神来匹配最佳的价格。但是现在，算法会自动
适应最佳的价格并且买入抛售股票。虽然偶尔会导致“闪崩”的现象。机器学习算法已经很强大了，他们能够替代人
类进行一些决策，也能进行人脸识别，将社交媒体的内容和用户进行匹配，也能进行一些司法判决。这些决策系
统都为人们提供了便利，但也带来了很大的社会挑战。比如歧视问题和政治两极化的问题正在被拉大。这个问题
很复杂我们无法一言概之。
上述的问题只是此类场景中的一小部分。作为计算机科学家，我们的目的是使计算尽可能高效和简单，但我们必
须保留减少计算复杂性，也就是计算“摩擦力”的成本。
量子计算机的力量
随着摩尔定律的失效，计算机研究人员将目光转移到量子计算机的领域，这些年，量子计算机的研究和应用正在
经历大幅的增长。谷歌、微软和IBM等大型科技公司，以及各种创业公司都在量子计算机方面投入大量资源进行研
究。美国发起了国家级的量子计算研究计划，中国等其他国家也在纷纷效仿。
在2019年，谷歌宣布他们已经通过使用53个量子比特的量子计算机实现了“量子霸权”，解决了当前传统计算机无
法解决的很多计算任务。虽然有很多人质疑这个说法，但是我们无疑的正在处于量子计算新时代的起点之上。尽
管如此，我们距离能够跑起来Peter Shor的量子算法，以及拥有一台真正的量子计算机，还有相当远的距离。保守
来说，我们还需要几万个量子位的距离需要攻克。通常来说，量子计算机可以被理解成是由比特表示的状态数的
系统，比如53个量子比特计算机的2^53个状态。这可能说明，我们可以通过创建特别多的状态位，也就是使用量
子计算来解决NP完全问题——也就是大力出奇迹。但不幸的是，目前我们无法证明量子计算机能够充分操控这些
状态位，也就是不知道使用什么算法来解决NP完全问题，在这个角度上，这个问题已经超出了Grover的算法限
制。
复杂性更新
自从2009年以来，我们在高效计算理论方面取得了一些重大的进展。虽然这些结果在解决P和NP方面没什么帮
助，但是它们可能从一旁帮助理解相关的问题，并且启发后世的一些研究发展。
图同构
一些NP问题无法表征为P（有效可解）或NP完全问题（与Clique问题一样难的问题）。我们之前讨论过的最著名
的整数因式分解仍然需要指数级的时间来求解。对于另一个这样的问题，也就是图同构问题，我们最近看到了一
些戏剧性的进展。图同构问题是指，人们可否找到两个图在统一表示下完全相同。具体举例来说，就像在
Facebook中，当我们给定了两组1000人，我们能否将他们映射到另一个组中，在那个新组中好友的关系不变。
（小A和小B是好友，在另一群人中A’和B’也是好友）
这个图同构的问题在80年代中有了一些理论上的证明。在80年代，有人用交互式的方法证明了图同构问题不是NP
完全的，而且它其实不是很困难，在一些实际的情况下，使用启发式的方法也能快速找到解决答案。尽管如此，
我们仍然无法找到一个能够在所有场景中都快速找到解的算法。Laszlo Babai在2016年对该问题进行了深入研
究，并发表了一种用于图同构的多项式时间的解决算法。简单来说，P中的问题在多项式时间内如果可以得到解
决，也就是对于某个常数k，复杂度是n^k，其中n是输入的大小，比如每组的人数。拟多项式时间算法在时间
n^(logn)k内执行，只比多项式时间差一点点，但起码比我们预计的NP完全问题所需要的2^n^ε的复杂性好的多。
Babai的证明结合了组合学和群论，是一个非常棒的工作。虽然距离让这个算法能够在多项式时间内执行完还有些
远，但是Babai提供了一个重要的理论结果。这在P和NP完全问题之间取得了一项重大的进展。
电路设计
如果NP在完整的电路设计的基础上（也就是与或非门）没有最小的电路，那么就不存在P=NP的解。虽然在1980
年代的电路发展黄金年代中，没有明确的证明否定P=NP的假设。在2009年的各项调查中，也说明在过去20年
中，电路复杂性也没有取得重大的成果。在1987年，Razborov和Smolensky证明说不可能用与或非和Mod_p门的
恒定深度电路计算某些固定素数p的多数函数。但是对于带有Mod_6门的电路来说，我们几乎无法证明这个结果。
即便是我们可以证明NEXP（NP的指数时间版本）无法通过与或非和Mod_6门的小型、恒定深度的电路进行计
算，P和NP是否相等的问题在几十年见也仍旧无法得到解答。话说回来，恒定深度的电路在理论上被认为是具有
很弱的可计算性的，我们在这些年一直没有取得实质性的进展，在电路的算法最新产出上的无人问津也侧面证明
了这个现象。
在2010年，Rayan Williams表明NEXP确实不具有那些使用Mod_6或其他Mod门一样的恒定深度的电路。因此，他
创造了一种新的技术，使用可满足性算法进行解决。这种算法的实现下界比尝试所有可能，或者使用一些复杂性
工具来暴力实现来说要好一些。后来，Williams和他的学生Cody Murray进行了进一步的研究，结果表明，可以在
任何固定的没有带Mod_m门的小的恒定深度的电路中，都有非确定性拟多项式时间的解。然而，证明NP没有任意
深度的小回路这个问题，仿佛仍然遥不可及。
复杂性的反击？
在2009年的那篇综述中，我在名为“新希望”的章节中讨论了一种新的几何复杂性理论方法，这个方法基于Ketan
Mulmuley和Milind Sohoni开发的代数几何和表示论来攻克P和NP问题。简而言之，Mulmuley和Sohoni创建了高维
的多边形空间，以在NP的代数版本中找到P和NP的映射，从而在这个空间中重构、理解并解决该问题。他们的一
个猜想中，假设多边形包含某个表示理论对象的特殊属性。在2016年，Peter Burgisser、Christian Ikenmeyer和
Greta Panova从理论上证明了这种方法是不可能滴。
虽然Burgisser和Ikenmeyer、Panova的研究成果否定了GCT分离P和NP的方法，但是并没有将这种实验方法和思
路进行否定。人们仍然可以根据这种表示理论对象的数量创建不同的多边形空间。尽管如此，我们还是无法孤注
一掷的认为多边形方法能够在不久的将来解决P和NP的问题。
不可能的可能性
当我们反思P和NP问题时，我们看到这个问题有很多不同的含义。P和NP的数学正式定义仍然是它的官方定义，
虽然很冷冰冰但是含义最为完全。而且能够解决这个数学问题的人还能给你的到数百万美元的赏金不是吗。
有时候，我们虽然可以通过可计算理论、电路、证明和代数几何等工具看到解决P和NP的方法，但是目前没有能
够完全解决P和NP问题的有力方法。从这个角度上来说，我们正在抽象P和NP问题到一些领域中，降低了它的难
度，也就是距离原问题越来越远。
在现实生活中，我们也有很多秉待解决的实际NP问题。在1976年出版的经典著作《计算机与难处理性：NP完全
性理论指南》一书中，Garey和Johnson举了一个倒霉的员工的例子，他老板让他去解决一个NP完全优化的问题。
最终的时候，这个员工苦恼地找到老板说，我实在没辙了，找不到一个有效的算法来解决这个问题，而且不光是
我，这个世界上不管是比尔盖茨还是沃兹尼亚克都束手无策。书中说，这个老板不应该解雇这名员工，因为没有
其他的人能够解决这个问题。
在P和NP的早期，我们将NP完全性视作障碍。这些是我们无法解决的问题。但是随着计算机的发展和进步，我们
发现可以通过启发式与暴力计算的组合，在很多NP问题上取得很好的进展。在Garey和Johnson的故事中，如果我
是老板，我可能不会解雇那名倒霉的员工，而是建议他使用一些新的方法，比如混合整数编码、机器学习以及暴
力搜索的方法进行破解。NP完全意味着不可能，这个想法其实已经out了，它的时代也已经成为过去式了。NP完
全，只是意味着可能没有始终有效和可扩展的算法而已，但是问题，还是有可能被解决的。
在我2013年发表的P和NP的书中，我有一章名为“美丽新世界”的文字。我在其中提到了一个理想化的世界，在那
里，捷克数学家证明了P=NP，从而为所有NP问题提供了一种非常有效的解决算法。虽然我们不会也可能永远不
会生活在这样的理想世界中，但是随着医学的进步，随着虚拟世界、元宇宙等新概念的崛起，P=NP这个古老的美
妙话题似乎也不再遥不可及。
但是，话说回来，我们正在朝着几乎能够颠覆P=NP问题思想的方向大步前进。与其一直将其视为算法的障碍，不
如去想象P和NP的解决之道，在其中探索一些新的方向，发掘出其中不可能的可能性。
全篇完结·心得体会
终于..在年后繁忙的工作与生活交织拉扯当中，今天完成了全篇内容的撰写，同时十分抱歉因为写作过程中诸多
欠考虑因素，可能会造成篇幅仍过于冗长、繁杂的阅读体会，而且在内容的表述和思考的阐释过程中，如上篇最
后体会中所说，我自己感觉仍没有找到一个更加适合的形式化表达工具或方法来阐释核心要点内容，即通过文字
语言的形式。再次跟大家抱歉！
最后，关于本篇文章，还是想多啰嗦几句自己的初衷：
在写完这篇文章外加最近外界的诸多新闻，似乎更坚定了我对AGI实现的确定性，因此回到我最初想要写
这篇文章前其中的一个分非常重要的目的同时也非常迫切的希望我们需尽快完善AI进行综合安全监管和治
理上的考虑，正如Hitton的担忧与后悔：自己正在成为下一个曼哈顿计划的始作俑者，包括我们每一个人
，包括我自己。
不管未来的AGI的实现路径是基于LLMs自回归一直暴力scaling prediction下去，还是沿着LeCun的世界
模型路径缓慢的摸索前进，还是即将到来的下几代GPT中出现了真正通往AGI的Q-star，亦或sora变成了
真正的世界模拟器，我想不管人类最终探索出上述通往AGI路途中的哪种路径，采用那种模型结构，运用
哪些数学变换方法，还是最终找到了创造无限的数据构象分布并建立全域pattern的可能，最终结合本文
回归第一性原理的思考，在这个世界中推理认知的模式和对人类产生的影响的本质方面，我想都是值得我
们每一位伙伴深思并做出正确的人类发展历程中的决定的。
目前，看起来现在已经没有什么能够阻止奥特曼率领的OpenAI了大跨步前进了，而其所尊崇的scaling la
w也许会成为阻止其吞噬真实世界的最后屏障，而此scaling law非彼scaling law，似乎只有期待在自然
法则下无休止的scaling law也许并不被允许的可能，就像在我们的真实世界中并没有演化出无限制scalin
g的超级合体一样，也许这个世界还存在着另一个restricting law吧。
也期待自己这篇文章的能够最大价值的发挥出一定的作用：
1. 激发大家对大模型的创新的热情和警惕性，带给大家一些回归一次性原理的思考方法，并尝试洞悉未来AGI的内
涵，以便届时我们能有一些好的办法来应对。
2. 未来希望可以作为长文本上下文prompt到某个LLMs中，以促进开源社区的进一步探索和治理。
最后，随着近期逐步更新，我想全文快接近10万字了，因为平日工作也异常繁(内)忙(卷)，只有占用自己闲暇时间
一个一个字码完，能写完着实也是挺耗费精力的，也希望大家看在字数上面如果可以的话多帮忙转发，让更多的
人看到，感谢！
最后的PS：本篇文章完全非类GPT LLM生成！

融合RL与LLM思想+·+探寻世界模型迈向AGI「上中下合集」by+吕明+v5 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

融合RL与LLM思想+·+探寻世界模型迈向AGI「上中下合集」by+吕明+v5 1

Uploaded by

Copyright:

Available Formats

融合RL与LLM思想·探寻世界模型迈向AGI「上中下

EVERYTHING OF THOUGHTS : DEFYING THE LAW OF PENROSE TRIANGLE FOR THOUGHT

Algorithm of Thoughts: Enhancing Exploration of Ideasin Large Language

其中来自OpenAISafety团队的负责人Lilian Weng也在不久前发布的那篇6000字的博客所述的AI Agent的COH思

AD论文原文：In-context reinforcement learning with algorithm distillation - ﻿https://arxiv.org/pdf/2210.14215.pdf﻿

AD论文摘要：文中提出了Algorithm Distillation (AD)，这是一种通过因果序列模型对其训练历史进行建模，从而将

• Policy Loss：在预测的策略和从MCTS self-play过程中获得的策略目标之间计算交叉熵损失；

从上图中可看出，AlphaZero所采用的神经网络结构融合了AlphaGO的Policy Network和Value Network这两个

例子即来自于 外部医疗+LLM相关论文视角的探索 ﻿文章中介绍的一篇来自Google Research与Google

Scaling Law 的业内争议与讨论 ﻿

My AI Timelines Have Sped Up （Again） ﻿

首先我们从Self-Play或Synthetic Data本身的意义上尝试进行一下思考的延展，这里由于Synthetic Data本身

在本篇论文中，Self-Play采用了类似Multi-Agent的思想，包括Patient Agent、Doctor Agent、Critic以及

在进行上述问题思考和探寻的过程中，刚好也联想到去年了解到的Mistral 7B，而由Mistral 7B也进一步了解到

问题一：为什么「In-Context Learning」或相关的「few-shot」「zero-shot」「prompt e与gineering」等思想

疑问二：思维链 · COT的意义？引申出「系统一 · 快思考与系统二 · 慢思考」的本质思考。

问题三——终于来到了「系统一 · 快思考与系统二 · 慢思考」这一观点的探索和思考了，我想仍然采用一种自身经

要进行「系统一 · 快思考与系统二 · 慢思考」的阐释，就不得不提及最初提出这个观点的一位研究者：丹尼尔·卡

此外，您可以通过说“let's think step by step"从Transformer中引发这种行为，因为这使Transformer变得有点像

在接下来对「系统一 · 快思考与系统二 · 慢思考」的持续探寻中，我想先为大家分享一下我在接触到Andrej

其中的关键点在于：“如何优雅的平滑嵌入”，将思考链就像COT中的prompt方式或in context learning模式那样，

另外一方面，回归到in context learning和模型SFT两种本质推理范式上，E2E深度推理某种程度上是实现了自动

基于In Context Learning与SFT的本质一致前提，才可能有深度推理E2E的实现可能与意义。

这篇论文应该正好赶上了近期火爆的rosa借助采用diffision models的思想，代替传统LLMs AR的方式的尝试，接下

在实践中，DoT在每个扩散时间步t迭代地对数据点施加高斯噪声，其中t从t = 0（最少噪声）运行到t = T（最多噪

另外一篇是斯坦福大学和Notbad AI Inc的研究人员开发的Quiet-STaR，让AI学会“思考”再“说话” Quiet-STaR:

因此，对于上述所说的in context learning也好还是prompt leaning也罢其实对于人类和机器的推理与思考或直觉

本节尝试为各位读者阐释我对「系统一 · 快思考与系统二 · 慢思考」的理解和浅见，即便我们洞察到对于模型来

接下来，让我们加快点速度，将时间推移到近现代-20 世纪 40 年代和 50 年代，其中计算机科学的发展为人工智

1、当前LLM似乎无法满足像系统二·慢思考那样，在开始进行next token prediction前，进行提前的规划或反

“AI 本质就是一堆 scaling law..今天能看到最好的模型是 10 的 25 到 26 次方 FLOPs 这种规模。这个数量级接下

你需要一个同时满足 scalability 和 generality 这两点的架构，但今天其实很多架构已经不满足这两条了。

现在“吃”的是 base model 的 scaling law，未来可能会去“吃”用户这个数据源的 scaling law。

因为其实 alignment 也有 scaling law，它肯定是可以被解决的，只要你能找到对的数据。AI 本质就是一堆

一个值得被 scale up 的架构是基础，这个架构首先得支持不断加入更多数据，然后数据才会真的成为瓶颈。我

统计模型没有什么问题。当 next token prediction 足够好的时候，它能够平衡创造性和事实性。

到了 GPT-6 这一代，掌握合成数据技术的玩家会体现出明显差距。因为数据其实有两种，一种是做 pre-training

我觉得 2025、2026 年可能是很重要的 milestone —— 模型的大部分计算量会发生在模型自己生成的数据上。

而在上一节「系统一 · 快思考与系统二 · 慢思考」中我们提到，系统一与系统二在本质上具有底层逻辑的一致性，

因此LLMs在进行pre training时对数据的pattern探索所面临的scaling law相比这个世界上更加广泛的pa

每个人都同意 Sora 是一个令人印象深刻的模型。但除了生成逼真视频之外，Sora 还有更深层的属性吗？

Sora 必须学习一些隐式的文本到 3D、3D 转换、光线追踪渲染和物理规则，以便尽可能准确地对视频像素进行

物理引擎术语有些令人困惑，尤其考虑到 Sora 可能是在虚拟引擎 5 的场景中接受训练的。我们首先需要澄清一

这不仅仅因为我们完全不清楚它是如何工作的（资产、动画从哪里来），还因为 Sora 是一个 DiT 模型，而这些

另外，此前，Ruibo Liu 等人（谷歌大脑团队、达特茅斯学院）在 2023 年发表的一篇论文《Mind's Eye:

此外，MIT 的 Josh Tenenbaum 实验室对这一工作进行了探索，使用语言模型将自然语言查询转换成概率编程语

他们在概率生成程序中添加了一个 Simulate_physicals 函数，该函数采用指定对象属性（如位置和速度）的初始

这显然与 Sora 的做法相差甚远，Sora 是一个端到端的神经网络，而不是一个神经符号系统。那么，我们该如何

那么，Sora 是否真的从 2D 视频中归纳出物理定律呢？如前所述，这看起来可能就很荒谬。比如 Sora 会以某种

那么，Sora 是否真的从 2D 视频中归纳出物理定律呢？如前所述，这看起来可能就很荒谬。比如 Sora 会以某种

如何做到的呢？认知科学中有一个重要假设：人们使用直观物理引擎（intuitive physics engine，IPE）在心理上

这里只关注对 IPE 假说的一个反对意见，它与视频生成模型的争论尤其相关。一些研究人员认为，人们对物理场

IPE 假说支持者的普遍反应是，依赖启发式的证据可以简单地解释为限制 IPE 模拟的边界条件和机制。没有任何

因此我认为底线是：至少对于人类而言，人们很容易通过假设 IPE 的存在来解释直观的物理推理，而该 IPE 使

2018 年，Ha David、Schmidhuber Jürgen 合作撰写了一篇名为《World Models》的论文，在这篇文章中，世

另一位推崇世界模型的是 Yann LeCun，曾经提出了一种名为 JEPA（联合嵌入预测架构）的框架，在这一框架

除此以外，在 Sora 模型发布的当天，Meta 推出了一个全新的无监督「视频预测模型」——V-JEPA，与 JEPA

V-JEPA 和 Sora 之间的主要区别之一是它们各自的学习目标，以及这些目标可能对其潜在表示产生的下游影

除此以外，Sora 与 Ha & Schmidhuber 的世界模型也有很大不同，它不会基于离散行为、观察和奖励信号的历

Sora 可能模拟了离线强化学习中的智能体策略，但与 Genie 不同，Sora 没有接受过从视频中诱发潜在动作的训

然而，我们不能排除这样一个假设，Sora 是一个世界模拟器 —— 或者，稍微不那么夸张，在较弱意义上，它是

事实上，Sora 输出的结果很明显会在直观物理上出错。如果非要说 Sora 是一个较弱意义上的世界模型，那么它

这一信息很重要，因为很多研究者认为 Sora 只是学习在逐帧像素变化中插入常见模式。Sora 架构中编码器和解

AD论文原文：In-context reinforcement learning with algorithm distillation - https://arxiv.org/pdf/2210.14215.pdf

例子即来自于外部医疗+LLM相关论文视角的探索文章中介绍的一篇来自Google Research与Google

Scaling Law 的业内争议与讨论

My AI Timelines Have Sped Up （Again）

记得在「中篇」融合RL与LLM思想，探寻世界模型以迈向AGI 中，有曾跟大家提及未来AI能力持续的提升与演

可以说，AlphaFold 3的这种强大的结构化预测与生成能力，进一步的加速了AIDD的发展，即配体和抗体这些常

Think：这里可以与「中篇」融合RL与LLM思想，探寻世界模型以迈向AGI 中关于数据&认知构象分布上做对

Think：想象一下中「上篇」融合RL与LLM思想，探寻世界模型以迈向AGI 的AlphaZero中的描述..