1. 引言:表达滞后于思维,认知滞后于感知
在大语言模型的研究中,我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时,通常会发现三个层级之间存在显著的性能鸿沟:
- 任务执行 (Task Performance, $P_{TP}$):模型在实际回答问题时的表现(“手"的能力)。
- 自我验证 (Self-Verification, $P_{SV}$):模型检查自身答案对错的能力(“嘴"的能力)。
- 内部表征 (Representation Readout, $P_{RR}$):直接通过线性探针(Probe)读取模型神经元激活状态所获得的信息
现有研究普遍印证了以下不等式: $$ \sup_{\pi} P_{TP}(\pi) \le \sup_{\pi,A,s} P_{SV}(\pi,A,s) \le \sup_{\pi,A,l,g} P_{RR}(\pi,A,l,g) $$
图1. 语言模型实践中三个层次的性能差异:表征 > 语言验证 > 实际执行
简而言之,模型处于一种**“心里有数” (RR) 却“嘴上说不清” (SV),最终导致“手头做不对” (TP)** 的状态。虽然思维链(CoT)试图让执行能力追上验证能力,但谁来弥合语言表达与内部直觉之间的断层?
这正是我们试图探索的焦点。为了缩小“直觉”与“表达”的鸿沟,我们将目光投向了 Looped Transformer。
2. 破局者:Looped Transformer 的“内省”潜力
不同于传统 Transformer 单向的前馈结构,Looped Transformer 引入了层间循环机制。这赋予了模型在输出前反复“反刍”信息的能力。
[!TIP] 什么是 Looped Transformer?
如果说 CoT 是以序列长度换取思考时间,Scaling Laws 是以参数规模堆砌智能,那么 Looped Transformer 则开启了 Scaling 的第三个维度:深度。
其核心理念是**“权重共享与递归处理”**:将中间层的隐状态再次输入模型内部,利用相同的参数进行多轮循环。这类似于人类的“深思”——在开口前,利用有限的脑容量(参数),通过增加计算轮次来提升推理质量。
目前,学术界对该架构的探索主要集中在两个维度:
- 怎么 Loop (机制设计):
- PonderLM [1,2]:将预测转化为概率加权求和。
- Retrofitting-Recurrence [3]:仅改造模型中间层。
- THINK-AT-HARD [4]:引入 LoRA 与双因果注意力机制。
- 在哪 Loop (策略控制):
- Google MoR [5]:引入路由机制动态分配计算预算。
- SEED OURO [7]:引入“早停机制”和熵正则化损失。
本次实验我们选用 OURO 模型,利用其对 vLLM 推理框架的良好支持,深入验证“循环”是否能真正带来“内省”。
3. 发现一:Gap 确实在缩小,但代价是什么?
我们对比了“语言监控器”与“表征监控器”在数学和安全场景下的性能变化。实验揭示了一个有趣的 Trade-off(权衡)现象。
观察结论: 随着 Loop 次数增加,语言表达与内部表征之间的 Gap 确实在缩小,但原因并非全是正向的。
正面效应:语言验证能力提升 模型通过“深思熟虑”,确实变得更能用语言解释清楚问题。
图2. 语言验证准确率随 Loop 增加而呈上升趋势负面代价:原始表征信息磨损 Gap 的缩小,部分原因竟是表征监控性能的下降。
图3. 随着思考深入,表征监控的性能反而出现下降
这暗示了一个残酷的事实:循环过程在整理思路的同时,也造成了原始信息的熵减或丢失。 如果“想得太久”会磨损直觉的敏锐度,我们需要重新审视“深思”的策略。
4. 发现二:薛定谔的“内省”
为了验证模型是否真的在每一轮循环中都在审视自我,我们参考 Anthropic 的设置 [8] 进行了**“思维植入”测试**:在模型思考过程中强行注入特定概念向量,观察模型能否察觉。
结果极具反直觉性:
图4. 模型仅在最终输出阶段才能有效识别注入的概念
- 过程中的盲视:在前几次 Loop 中,模型对注入的向量视而不见,仿佛处于“无意识”状态。
- 临终前的觉醒:只有在最后一次 Loop(即将输出时),模型才突然识别出被注入的表征。
这说明,即使在循环架构下,模型对内在语义的处理仍然是局部且短视的。它并没有进行连续的自我审视,而只是在最终输出的关头才“醒”过来。
5 讨论与展望
本次实验揭示了语言与表征之间错综复杂的关系:
- 表达与思维的非同步进化:Loop 确实能让模型“说”得更好,但未必能让它“想”得更清楚。
- 内省机制的局限:当前的循环架构尚未涌现出连续的自我意识监控。
这些发现不应被视为 Looped Transformers 的终结,而是指引未来的路标。弥合“表达”与“表征”的鸿沟,将是通往更高级、更可信赖 AI 的必经之路。
参考文献
- Zeng B, Song S, Huang S, et al. Pretraining Language Models to Ponder in Continuous Space. arXiv preprint arXiv:2505.20674, 2025.
- Zeng B, Li H, Song S, et al. PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space. arXiv preprint arXiv:2509.23184, 2025.
- McLeish S, Li A, Kirchenbauer J, et al. Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence. arXiv preprint arXiv:2511.07384, 2025.
- Fu T, You Y, Chen Z, et al. Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models. arXiv preprint arXiv:2511.08577, 2025.
- Bae S, Kim Y, Bayat R, et al. Mixture-of-recursions: Learning dynamic recursive depths for adaptive token-level computation. arXiv preprint arXiv:2507.10524, 2025.
- Zhu R J, Wang Z, Hua K, et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.
- Lindsey J. Emergent introspective awareness in large language models. arXiv preprint arXiv:2601.01828, 2026.