以循环为桥:循环 Transformers 能否弥合输出与表征的差距?

<!DOCTYPE html> 阅读完整报告 1. 引言:表达滞后于思维,认知滞后于感知 在大语言模型的研究中,我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时,通常会发现三个层级之间存在显著的性能鸿沟: 任务执行 (Task Performance, $P_{TP}$):模型在实际回答问题时的表现(“手"的能力)。 自我验证 (Self-Verification, $P_{SV}$):模型检查自身答案对错的能力(“嘴"的能力)。 内部表征 (Representation Readout, $P_{RR}$):直接通过线性探针(Probe)读取模型神经元激活状态所获得的信息 现有研究普遍印证了以下不等式: $$ \sup_{\pi} P_{TP}(\pi) \le \sup_{\pi,A,s} P_{SV}(\pi,A,s) \le \sup_{\pi,A,l,g} P_{RR}(\pi,A,l,g) $$ ...

一月 16, 2026 · 2 分钟 · Guanxu Chen, Dongrui Liu, Jing Shao