以循环为桥：循环 Transformers 能否弥合输出与表征的差距?

阅读完整报告

1. 引言：表达滞后于思维，认知滞后于感知

在大语言模型的研究中，我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时，通常会发现三个层级之间存在显著的性能鸿沟：

任务执行 (Task Performance, $P_{TP}$)：模型在实际回答问题时的表现（“手"的能力）。
自我验证 (Self-Verification, $P_{SV}$)：模型检查自身答案对错的能力（“嘴"的能力）。
内部表征 (Representation Readout, $P_{RR}$)：直接通过线性探针（Probe）读取模型神经元激活状态所获得的信息

现有研究普遍印证了以下不等式： $$ \sup_{\pi} P_{TP}(\pi) \le \sup_{\pi,A,s} P_{SV}(\pi,A,s) \le \sup_{\pi,A,l,g} P_{RR}(\pi,A,l,g) $$

图1. 语言模型实践中三个层次的性能差异：表征 > 语言验证 > 实际执行

简而言之，模型处于一种**“心里有数” (RR) 却“嘴上说不清” (SV)，最终导致“手头做不对” (TP)** 的状态。虽然思维链（CoT）试图让执行能力追上验证能力，但谁来弥合语言表达与内部直觉之间的断层？

这正是我们试图探索的焦点。为了缩小“直觉”与“表达”的鸿沟，我们将目光投向了 Looped Transformer。

2. 破局者：Looped Transformer 的“内省”潜力

不同于传统 Transformer 单向的前馈结构，Looped Transformer 引入了层间循环机制。这赋予了模型在输出前反复“反刍”信息的能力。

[!TIP] 什么是 Looped Transformer？
如果说 CoT 是以序列长度换取思考时间，Scaling Laws 是以参数规模堆砌智能，那么 Looped Transformer 则开启了 Scaling 的第三个维度：深度。
其核心理念是**“权重共享与递归处理”**：将中间层的隐状态再次输入模型内部，利用相同的参数进行多轮循环。这类似于人类的“深思”——在开口前，利用有限的脑容量（参数），通过增加计算轮次来提升推理质量。

目前，学术界对该架构的探索主要集中在两个维度：

怎么 Loop (机制设计)：
- PonderLM [1,2]：将预测转化为概率加权求和。
- Retrofitting-Recurrence [3]：仅改造模型中间层。
- THINK-AT-HARD [4]：引入 LoRA 与双因果注意力机制。
在哪 Loop (策略控制)：
- Google MoR [5]：引入路由机制动态分配计算预算。
- SEED OURO [7]：引入“早停机制”和熵正则化损失。

本次实验我们选用 OURO 模型，利用其对 vLLM 推理框架的良好支持，深入验证“循环”是否能真正带来“内省”。

3. 发现一：Gap 确实在缩小，但代价是什么？

我们对比了“语言监控器”与“表征监控器”在数学和安全场景下的性能变化。实验揭示了一个有趣的 Trade-off（权衡）现象。

观察结论： 随着 Loop 次数增加，语言表达与内部表征之间的 Gap 确实在缩小，但原因并非全是正向的。

正面效应：语言验证能力提升 模型通过“深思熟虑”，确实变得更能用语言解释清楚问题。

图2. 语言验证准确率随 Loop 增加而呈上升趋势
负面代价：原始表征信息磨损 Gap 的缩小，部分原因竟是表征监控性能的下降。

图3. 随着思考深入，表征监控的性能反而出现下降

这暗示了一个残酷的事实：循环过程在整理思路的同时，也造成了原始信息的熵减或丢失。 如果“想得太久”会磨损直觉的敏锐度，我们需要重新审视“深思”的策略。

4. 发现二：薛定谔的“内省”

为了验证模型是否真的在每一轮循环中都在审视自我，我们参考 Anthropic 的设置 [8] 进行了**“思维植入”测试**：在模型思考过程中强行注入特定概念向量，观察模型能否察觉。

结果极具反直觉性：

图4. 模型仅在最终输出阶段才能有效识别注入的概念

过程中的盲视：在前几次 Loop 中，模型对注入的向量视而不见，仿佛处于“无意识”状态。
临终前的觉醒：只有在最后一次 Loop（即将输出时），模型才突然识别出被注入的表征。

这说明，即使在循环架构下，模型对内在语义的处理仍然是局部且短视的。它并没有进行连续的自我审视，而只是在最终输出的关头才“醒”过来。

5 讨论与展望

本次实验揭示了语言与表征之间错综复杂的关系：

表达与思维的非同步进化：Loop 确实能让模型“说”得更好，但未必能让它“想”得更清楚。
内省机制的局限：当前的循环架构尚未涌现出连续的自我意识监控。

这些发现不应被视为 Looped Transformers 的终结，而是指引未来的路标。弥合“表达”与“表征”的鸿沟，将是通往更高级、更可信赖 AI 的必经之路。

参考文献

Zeng B, Song S, Huang S, et al. Pretraining Language Models to Ponder in Continuous Space. arXiv preprint arXiv:2505.20674, 2025.
Zeng B, Li H, Song S, et al. PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space. arXiv preprint arXiv:2509.23184, 2025.
McLeish S, Li A, Kirchenbauer J, et al. Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence. arXiv preprint arXiv:2511.07384, 2025.
Fu T, You Y, Chen Z, et al. Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models. arXiv preprint arXiv:2511.08577, 2025.
Bae S, Kim Y, Bayat R, et al. Mixture-of-recursions: Learning dynamic recursive depths for adaptive token-level computation. arXiv preprint arXiv:2507.10524, 2025.
Zhu R J, Wang Z, Hua K, et al. Scaling latent reasoning via looped language models. arXiv preprint arXiv:2510.25741, 2025.
Lindsey J. Emergent introspective awareness in large language models. arXiv preprint arXiv:2601.01828, 2026.

1. 引言：表达滞后于思维，认知滞后于感知#

2. 破局者：Looped Transformer 的“内省”潜力#

3. 发现一：Gap 确实在缩小，但代价是什么？#

4. 发现二：薛定谔的“内省”#

5 讨论与展望#

参考文献#