可解释性 | AI45研究成果

<!DOCTYPE html> 阅读完整报告 1. 引言：表达滞后于思维，认知滞后于感知在大语言模型的研究中，我们常观察到一种“表达滞后”的悖论。当我们拆解模型能力时，通常会发现三个层级之间存在显著的性能鸿沟：任务执行 (Task Performance, $P_{TP}$)：模型在实际回答问题时的表现（“手"的能力）。自我验证 (Self-Verification, $P_{SV}$)：模型检查自身答案对错的能力（“嘴"的能力）。内部表征 (Representation Readout, $P_{RR}$)：直接通过线性探针（Probe）读取模型神经元激活状态所获得的信息现有研究普遍印证了以下不等式： $$ \sup_{\pi} P_{TP}(\pi) \le \sup_{\pi,A,s} P_{SV}(\pi,A,s) \le \sup_{\pi,A,l,g} P_{RR}(\pi,A,l,g) $$ ...