LLM Reasoning Is Latent, Not the Chain of Thought

Important

一句话：这篇 position paper argue 的是——当我们研究 LLM reasoning 时，默认研究对象应该是 latent-state trajectory (Z)，而不是 surface CoT (S) 或单纯 serial compute (B)；并给出一套 factorized + compute-audited 的实验范式来区分这三者。

0. 元数据 & 速查

字段	值
标题	LLM Reasoning Is Latent, Not the Chain of Thought
作者	Wenshuo Wang (SCUT, School of Future Technology)
类型	Position Paper（不是实验论文，也不是 method 论文）
arXiv	2604.15726v1 (2026-04-17)
主线挂钩	latent thinking × audio LLM（学长主线，优先级最高）
重要度	重要（方法论定盘级，不是奠基；但它给 latent reasoning 路线定了”读文献的正确姿势”）
阅读清单答题级别	①–⑤ 必答，⑥–⑦ 选答

1. 必答① · 问题骨架

1.1 作者站在什么未解决的老问题上

旧问题：CoT 到底帮没帮助？——这个问题已经被 Wei 2022、Wang 2023、Yao 2023 等反复肯定：“帮助”。

作者 pose 的新问题：CoT 帮助是在帮助什么？ 当你把”给模型更多中间计算”这件事拆开，到底是——

S (surface CoT, 可见的自然语言中间串)，
Z (latent-state trajectory, 隐藏态里承载中间承诺的路径)，
还是 B (generic serial compute, 多出来的那几步算力本身)

——在起作用？现有文献的毛病是：每次做实验都同时动了好几个变量（CoT prompting 同时变 S+B；latent reasoning 同时变 Z+B；test-time scaling 只动 B 但往往 output path 也跟着变），所以”CoT 有效”并不自动支持”surface trace 是推理的 primary object”。

1.2 作者被什么逼出了这个 pose

三条相互打架的证据线：

H2 阵营（surface 派）：faithful CoT / 工具调用 / 结构化检索显示 visible trace 可以 constitutive；
H0 阵营（compute 派）：filler token、self-consistency、test-time scaling 显示大量 gain 其实来自 budget；
H1 阵营（latent 派）：propositional probe、early-exit、COCONUT、feature steering 显示承诺先在 hidden state 里形成。

这三条不能同时为真——除非把”reasoning 的主对象是什么”这个问题本身先拆开。所以作者被逼出来的 pose 就是：把 S / Z / B 形式化地区分开，然后 argue 默认对象应该是 Z。

1.3 这个 pose 的骨架新在哪

不是新方法，而是 分类学 + 方法论：

给 latent reasoning 路线提供理论正当性：以前是”有这么个有趣现象”，现在是”这应该是默认研究对象”；
给未来实验设计提供可证伪的规则：三类 arm ( $A_{S}, A_{Z}, A_{B}$ ) + matched controls ( $A_{S}^{t e x t c t r l}, A_{Z}^{t e x t c t r l}$ ) + commitment readout；
给”regime dependency”留了退路：H2 在 constitutive regime（符号/工具）回归，H0 在 search-heavy regime 回归，H1 只是 ordinary regime 的 default。

用”骨架 + 新 pose”框架看：骨架是”reasoning 的 primary object 是谁”这个本体论老问题；新 pose 是用 S/Z/B 三分 + regime map + factorized design 把它变成可实验问题。这不是 DL 技巧拼接，是方法论层的新 pose——这也是为什么它能以 position paper 的身份单独立住。

2. 必答② · 等级判别（A 会门槛 vs ICASSP 天花板）

2.1 判定：方法论定盘级 position paper，不属于”机制/涌现级发现”，也不是”domain transfer 级搬运”

凭什么这么判：

它不做新模型、不报新 SOTA；第 5 章的 empirical program 更像”概念验证”而非独立经验贡献（见 §6 我的反对意见）；
它做的是给整条 latent reasoning 子领域重定规则——相当于在说”以后你投 paper 要不要被我这套 S/Z/B + audited budget 接受，是你的事”；
这种贡献在 ICML/NeurIPS 的 Position Paper Track 可以独立立住，但不能去 main track 和实验论文比实验深度。

2.2 对用户科研路径的启示

这篇不能直接模仿发——用户如果复制它的 pose 投 A 会会被拒（position paper 通常只收资深作者）。但它提供了三种可复用的刀：

刀	用法
S/Z/B 三分	评估任何 latent reasoning 论文时，先问”它动了哪一个”
Regime map	判断一个 idea 落在 ordinary / constitutive / search-dominant / mixed，决定预期结论
Factorized + compute-audited design	做实验时的自检清单——把这个框架搬到 audio LLM 的 latent thinking 实验里，就是你向 A 会展示 rigor 的方式

与学长”A 会需要机制/涌现级发现”立场的关系：这篇 paper 本身是 position 级不是机制级，但它恰好把”机制级证据 > surface 级证据”这件事写成了方法论教条。你以后想让学长看上你的 idea，可以用这篇的 mediator test 清单（temporal precedence / necessity / sufficiency / specificity / surface-rescue vs corruption）作为”我的实验到不到 A 会门槛”的自检表。

3. 章节精读

§1 Introduction（问题设定）

核心诉求：reasoning 的”primary object”这件事决定了 faithfulness / interpretability / benchmark / intervention 这四条线的立论。
当前文献的系统性缺陷：move several explanatory factors at once——这是作者反复锤的 keyword。
三句可背下来的话：
- CoT prompting changes both visible traces and compute allocation.
- Latent reasoning methods often change both hidden-state dynamics and compute budget.
- Test-time scaling changes compute and usually changes the output path as well.

§2 Problem Formulation

三个解释对象的定义（重点背下来）：

符号	含义	注意事项
S	semantic content of surface chain-of-thought，即显式自然语言中间串	只指语义内容，不是 token 数本身
Z	task-relevant latent-state trajectory	不是任意 hidden activation；是承载 intermediate task-relevant commitment 的那条路径；可以跨层跨位置分布，不要求单一 feature 定位
B	generic serial compute——额外的迭代/搜索/采样/loop 预算	与表示形式无关

三个竞争假设（注意它们在”预测哪里有最强 causal leverage”上是不对称的）：

H1 latent-trajectory mediation：推理主要由 Z 介导；S 只是 partial interface，可能 report、可能 perturb，但不是默认对象。
H2 surface-CoT mediation：推理主要由 S 介导；hidden state 只负责生成 trace；“更多推理 = 更好/更长的 visible trace”。
H0 generic-serial-compute null：大部分 reasoning gain 用 B 就能解释；S 还是 Z 只是次要的表示形式问题。

差别化预测（这是 §3 adjudication 的立论根基）：

H2 对 → surface 干预应该给出最强 causal leverage；
H0 对 → matched budget 扩展应该 recover 大部分 gain；
H1 对 → latent commitment 常常 早于/独立于/超越 显式 thought，且 latent 干预应改变行为。

§3 如何重估现有文献

作者关键姿态：不做定性 adjudication，按”诊断力”给证据加权。

最强权重：compute-matched causal intervention；
中等权重：部分 confound 的 intervention study；
最弱权重：probe-only / performance-only association。

§3.1 H2 的最强 case

不靠”CoT 涨点”——这个结果 H0/H1 都能声称；
真正立得住的是”visible trace 被做成 constitutive”的设计：
- Faithful reasoning pipeline（Creswell & Shanahan 2022；Lyu 2023 Faithful CoT；Logic-LM；FLARE）
- 结构化检索（Reasoning-in-Trees / PAR²-RAG / MIRAGE）
- 工具/符号执行、closed-loop 视觉推理
- Safety 场景下”真正需要 step-by-step 才能作恶”时的 CoT monitorability（Emmons 2025）
H2 真正的 claim ceiling：不是”surface mediation 是通则”，而是”在必须显式中间计算的任务上，S 可以 constitutive 且 monitorable”。

§3.2 H0 的最强 case

理论支持：Li 2024 CoT-expands-serial-depth；
实证支持：Self-consistency、Tree-of-Thoughts、Snell 2024 test-time scaling、MCTS 多跳 QA、Singhi 2025 solve-vs-verify；
王牌实验：Pfau 2024 Let’s think dot by dot——把中间 token 换成 filler 字符串还能保持大部分 gain。这就是 H0 直接的预测。
H0 的天花板：只能解释”budget 为什么有用”，不能解释”为什么特定 hidden state / feature / trajectory 和 reasoning 行为绑这么紧”。
作者方法论级别的反驳：如果每次 gain 都能被事后重述为”more budget helped”，那 H0 就失去了 discriminatory force（类比 Barsalou et al. 2003 对过于宽松理论的批评）。这一点特别重要——它是把 H0 从”默认选项”降格为”可驳斥假设”的关键逻辑武器。

§3.3 H1 的最强 case

三条线：

Residual（残差论据）：即使 H2 最强版本也解释不了”ordinary CoT 常不 faithful”的现象——这是 H1 的 negative evidence。
Probe / timing 证据：
- Feng 2024 propositional probes（output 被 bias/inject 时 latent world-state 仍 faithful）；
- Zhang 2025 reasoning models 的 hidden state 能 predict future answer correctness → early exit；
- Yang 2024 multi-hop latent reasoning（bridge entity 在 latent 先被 recall & utilize）。
Direct intervention 证据：
- Hao 2024 COCONUT（continuous latent space reasoning, backtracking/BFS-friendly）；
- He 2026 feature steering（小量 reasoning feature 就能替代 CoT）；
- Kazama 2026 GeoSteer、Nguyen 2026 ATLAS、Li 2026 IPG；
- Saunshi 2025 Looped Transformers（迭代深度模拟多步 CoT）。

诚实声明：不是所有都 compute-matched，作者把它们归为 convergent evidence，不是决定性。

§3.4 Overall adjudication

作者结论：H1 是当前最经济的综合，但只作为 default working hypothesis，不是 task-independent verdict。

§3.5 Boundaries and Falsifiers（重要，别漏）

作者自己划的界：

H1 不主张每个成功的 reasoning system 都 latent-first；
H1 不主张每个 hidden activation 都是 reasoning state；
Constitutive 场景（必须外显中间态的场景）→ H2 局部回归；
Search-heavy 场景（表示形式无关只看 budget）→ H0 局部回归；
H1 会被证伪的条件：未来 compute-matched 的 factorized 实验反复显示——要么 surface 干预比 latent 干预更强，要么 compute-only 就能 recover 现在归于 latent 的 gain。

§4 方法论含义

§4.1 为何当前设计不能区分 H1/H2/H0

关键逻辑：“统计显著” ≠ “假设区分性”——如果 H1 和 H2 在某场景下预测一样，那即使实验结果显著，也没有 adjudicative force。

§4.2 可区分 H1/H2/H0 的实验设计（6 arms × 3 contrasts）

三条原则：

Factorize S / Z / B；
每个干预配 matched control；
Differential verdict rule 要写在实验前（预注册思想）。

6 个 arm（背下来，以后自己做实验时当自检表）：

$A_{0}$ ：baseline
$A_{S}$ ：靶向 surface CoT 干预
$A_{S}^{t e x t c t r l}$ ：视觉 budget 相当、但去掉 task-relevant 语义的 surface 控制
$A_{Z}$ ：靶向 latent 干预
$A_{Z}^{t e x t c t r l}$ ：匹配 compute 的 latent sham 干预
$A_{B}$ ：纯加 serial budget

3 个 contrast：

Surface contrast: $A_{S}$ vs $A_{S}^{ctrl}$ vs $A_{0}$ → 支持 H2 当且仅当语义改写系统性改答案而 matched 控制不会；
Latent contrast: $A_{Z}$ vs $A_{Z}^{ctrl}$ vs $A_{0}$ → 支持 H1；
Compute-only contrast: $A_{B}$ vs 前两条 contrast 的增益 → 如果 $A_{B}$ 能 recover 大部分，H0 赢。

加一项：commitment readout——answer-relevant commitment 是 track 显式 trace，还是更早地在 latent 里成型？不做这个，H1 和 H2 就算实验做了还是 underdetermined。

§4.3 两条给未来研究的建议（这篇的实操 takeaway）

Treat latent-state dynamics as the default object of study——H2 是要 demonstrate 的特殊 regime，不是默认起点。
Evaluate reasoning with factorized, compute-audited designs——要声明每个 family 动的是 S/Z/B 的哪个，给出 audited budget ledger，报告 matched control，预注册 differential verdict rule。

§5 Empirical Adjudication Program（“概念验证”章）

Audited budget ledger（这个公式很有用，搬运到 audio 时做 audit 直接照抄）：

$B^{eq} = α_{dec} N_{dec} + α_{kv} N_{kv} + α_{hook} N_{hook} + α_{ver} N_{ver} + α_{tool} N_{tool} + α_{br} N_{br}$

Mediator tests（对 Z* 的五关）：

Temporal precedence：Z* 在决定性 surface step 之前就预测性；
Necessity：ablate Z* 的伤害 > 最强 sham；
Sufficiency：patch 正确 Z* 进错误 rollout → rescue > random patch；
Specificity：原始干预 vs 最强 sham 有明显差距；
Surface rescue/corruption：在 ordinary regime 下，_preserve Z_ 破坏 S 比 preserve S 破坏 Z** 损失更小。

主结果（Table 1 / Table 2 的压缩版）：

Controlled tier（合成 state-transition matrix）：ordinary 下 Latent 赢、constitutive 下 Surface 赢、search-dominant 下 Compute 赢、mixed 分裂；
Naturalistic tier：GSM8K-Platinum（ordinary）Latent 赢、HotpotQA distractor（constitutive）Surface 赢、MATH-500（search）Compute 赢、HumanEval+（mixed）分裂；
Mediator：ordinary / GSM8K-Platinum 上 Z* 五关全过；constitutive 上 surface-rescue contrast 反号——作为 boundary check，这是作者最想要的结果。

作者的定位策略很值得学：

承认三条独立研究线都已存在（latent control、CoT 不忠实批判、test-time scaling）；
argue 缺的是把三条线放在一张竞争图里的工作——这就是本文的 niche。
对 mechanistic 工作（e.g. Iteration Head）特别点评：leverage 不是自动的——没有预注册 component selection、matched nuisance control、跨 S/Z/B 的 causal test，mechanistic 只能揭示内部结构，不能 adjudicate。

§7 Conclusion

一句话：shift the default stance。H1 不是终极答案，是”当 S/Z/B 能干净分离时的最强 default working hypothesis”。

4. 必答③ · 迁移测试：搬到 audio × latent thinking 上要换什么？会在哪崩？

这是你今年的重点——学长已经明确 latent thinking × audio LLM 是方向，这篇等于给你现成的方法论模板。

4.1 S / Z / B 在 audio LLM 上如何具象化

抽象量	文本 LLM	Audio LLM（你的场景）
S	显式 textual CoT	显式 textual CoT（thinking 版本的 Step Audio 2）；或者可解码的中间 transcript/phoneme 序列
Z	LLM hidden state trajectory	多层候选：(a) audio encoder 输出的 continuous latent；(b) LLM backbone hidden state；(c) decoder 前的 conditioning latent（DiT/BigVGAN 的输入端）
B	decode steps / search branches	decode steps + diffusion steps（如果用 DiT 生成）+ rerank/verifier 调用数

4.2 学长”三件套”框架 × 这篇的 S/Z/B

这是两套刀互相验证的地方，笔记要 pin 住：

学长说 Audio-LM = Encoder + LLM backbone + Decoder；每篇 paper 改的是某一个零部件。
这篇说 reasoning 的主体是 Z；而 audio 的 Z 天然就是 continuous 的（因为音频波本身连续），这跟学长”continuous discrete”的立场在方法论上同向加强：不只是生成端连续更好，推理/中间表示端也应该默认 latent-continuous。
也就是说：用这篇 paper 的语言，COCONUT 式 latent reasoning × audio 天然比 textual domain 更”domain-native”——你不是在 force 一个反直觉的设定，你是在跟音频的物理连续性对齐。这是你在 rebuttal / 论文 intro 里可以直接写的一句话。

4.3 会在哪一步崩

Constitutive regime 在 audio 上稀缺：文本有 HotpotQA 那种可以”retrieval-plan gating”的 task；音频里对应物少——你很难找到一个”必须先 transcript 再答”的自然任务。这意味着 H2 的局部回归场景在 audio 上不好设计 → 你的 baseline 可能被 reviewer 质疑”没有 S 强势的 regime 作为对照”。
- 对策：人为构造——强制 audio LLM 在回答前先吐出结构化中间态（e.g. 先转 transcript 再回答），作为 constitutive baseline。
Search-dominant regime 在 audio 上很强：扩散采样步数、候选 beam、verifier rerank 都是天然的 B-dominant 操作，H0 在 audio 上比在文本上更难被打败。你需要非常谨慎地做 compute audit，否则”Z 赢”的结论会被直接 reduce 到”你只是多跑了 diffusion”。
Mediator test 的 Z 定位模糊*：文本 LLM 上 Z 一般指 transformer hidden state；audio 有三层候选，你要先做 calibration 决定选哪层——建议写 paper 时明确”我们定位 Z 于 LLM backbone 的 layer L”并且交代为什么*，否则 reviewer 会咬你”Z 定义太宽”。
Filler-token 反例在 audio 上形式不同：Pfau 2024 可以用无意义 token 替换，audio 里的对应是”无语义的 latent noise padding”——这会成为 H0 方向的潜在挑战实验，你应该主动做。

4.4 直接可抄的实验骨架（for audio × latent thinking）

A0  = Qwen2-Audio / Step Audio 2 直接 answer（no thinking）
A_S = Step Audio 2 thinking 模式（显式中间 textual CoT）
A_S_ctrl = 同样长度 visible trace，但中间内容替换为 task-irrelevant 文本
A_Z = COCONUT 风格 continuous latent reasoning，在 LLM backbone 第 L 层注入
A_Z_ctrl = 同 budget，但对 layer L 注入 random direction（sham）
A_B = 原模型 + self-consistency / 扩散步数翻倍（纯加 budget，不改表示）

在三个 regime 上各跑一遍：

Ordinary：一般 audio QA / ASR reasoning；
Constitutive：人为构造”必须先 transcript 再答”的 task；
Search-dominant：音频生成质量类 metric（FAD / MOS）在多次采样 rerank 下。

5. 必答④ · 下一步问题

5.1 作者明确点出 / 隐藏留白的下一步

他点的：“future compute-matched and factorized designs” 去真正 adjudicate H1 vs H2 vs H0；
他隐藏留白（更重要）：
1. Z 的定义还是太宽——“task-relevant latent trajectory, distributed across layers and positions” 这种定义下，你给出几乎任何 probe/steer 成功的 representation 都能叫 Z，这在本体论上危险。谁先给出 Z 的可操作化判准，谁就能把这篇 position paper 推上一层。
2. Regime 本身是 observer-dependent——“ordinary / constitutive / search-dominant”这个分类由研究者指定，不是 task 的客观属性；需要一个”如何事先判定一个 task 属于哪个 regime”的判据。
3. Mediator test 清单虽好，但成本极高——5 关全过对一篇 empirical paper 是 heavy burden；下一步问题是：哪些 test 可以 pipeline 化 / 哪些可以用 cheap proxy？

5.2 你（用户）可以顺着往下挖的

对 audio × latent reasoning 的 Z 做可操作定义：比如限定为”audio LLM 第 L 层 hidden state 的 PCA 前 k 维”，然后跑 mediator 五关。这个本身就有机会成为一篇 A 会短文。
构造”音频 constitutive regime”的任务集：几乎没有人做过，空白大。
Audio 上的 filler-latent 实验：把 Z 换成噪声 latent 看 gain 是否保留，直接挑战 H0 在 audio 上的声量。

6. 必答⑤ · 反对意见（必须带具体反例，不许空话）

6.1 “position paper 却自带 empirical section”的漂白嫌疑

§5 的 Table 1–2 数字过于干净：frontier gap 都在 1.9–3.4 整齐分布、mediator 五关全过、三个 model（Qwen3-8B / 32B / Llama-3.1-8B）行为完全一致、没有 std、没有 seed-level 报告、没有任何 regime 翻船。真实 empirical 实验不会这么 clean。结合 §5.1 那句 “Complete code is provided in the Supplementary Material” 和 Appendix 里 “template families are generated” 的用词——合理怀疑这部分是半合成/模拟数据，功能上是”支撑论点的叙事器”而非独立证据。这削弱了”H1 在 naturalistic 上成立”的说服力。

6.2 Z 的定义逻辑上接近循环

“Z = task-relevant latent states that carry intermediate task-relevant commitments”——注意 task-relevant 出现了两次。这在操作上等价于说”我们把能 probe/steer 出 reasoning 行为的那些 hidden state 叫 Z”。这就让”H1 为真”变得几乎不可证伪：只要找到任何 probe/steer 成功的 case，就可以事后定义 Z 来包住它。作者自己在脚注里试图收紧（“不是任意 hidden activation”），但没有给出前 hoc 的判据。

6.3 H0 被”方法论论证”降格，但 H2 没被同等降格

作者用”如果 H0 能事后吸收任何结果就失去 discriminatory force”（Barsalou 2003 类比）把 H0 判死。但同样的武器同样适用于 H1——只要 Z 定义够宽，任何结果都能事后归给 latent mediation。作者没有对称地对 H1 施加 discriminatory 要求，这是论证上的不对称 selection。

6.4 Regime 是观察者指定的

Table 1 把 HotpotQA distractor 指定为 constitutive、MATH-500 指定为 search-dominant——这个指定是作者做的，不是 task 本身自带的属性。一个反对者完全可以把 HotpotQA 视作 ordinary 来跑 baseline，得到不一样的结论。regime 的 observer-dependence 让”默认对象是 Z”这个主张漂浮在一个可调节参数之上。

6.5 “ordinary regime”本身是个 default-friendly 的构造

作者说”在 ordinary regime 下 H1 赢”，但”ordinary”被定义为”没有 constitutive 约束、没有 search-heavy 预算分配”的场景——这几乎就是”把 H2 和 H0 的最强主场排除后剩下的场景”。在把对手主场排除的场景里胜出，其实是论证结构的先验偏置，而不是经验胜出。

6.6 对 filler-token（Pfau 2024）的回应太轻

Pfau 的结果是对 H0 的硬证据（也是对 H1 的直接挑战），作者只用一句”still does not prove representation never matters”带过，没有给 filler-token 失败的任务或条件做量化反击。这是明显的证据处理不对称。

7. 选答⑥ · Reviewer 视角（想吃透才答）

如果我是 ICML Position Track 的 reviewer：

赞：问题分类清晰，S/Z/B 三分好教学；H1 的 boundary 和 falsifier 写得诚实；方法论那一章（§4）是最有 field-level 价值的部分。
Challenge 1：Empirical section 与 position paper 的 scope 不搭——要么扩成独立实验论文，要么索性删掉只保留 conceptual claim，现在这样既达不到实验 rigor 也削弱了 position 纯度。
Challenge 2：Z 的本体论状态没讲清——reviewer 会要求明确区分”Z 是实在的 computational object”还是”Z 是解释性建构”。这两种立场对 H1 的 downstream implication 非常不同。
Challenge 3：References 里大量 2026 arXiv 未发表工作，且 self-reinforcing（多篇都指向 latent 阵营）——reviewer 会怀疑文献选择偏倚。
Limitations 部分作者承认了什么：承认了 regime 依赖、承认了 H1 只是 working hypothesis、承认了部分 latent 干预没 compute-matched。没承认的是 Z 定义宽度和 empirical section 的合成嫌疑。

8. 选答⑦ · 时间尺度（5 年后还会被引吗？）

如果 latent reasoning 真成为主流（2029–2030 年 COCONUT/continuous thought 变成 production 级标配）：这篇会被当作”早期方法论呼吁”常被引入 related work，地位类似今天引 Bommasani 2021 Foundation Model 那篇 position paper。
如果 latent reasoning 路线式微（被新的 discrete reasoning 架构覆盖）：会被遗忘，因为它赌的是路线而不是新工具。
无论哪种，§4.2 的 6-arm factorized design 作为方法论工具有独立留存价值——这才是这篇最可能 survive 5 年的部分。
它被引会不是因为方法，而是因为提了一个分类学问题——这本身就印证了”骨架 + 新 pose”框架里，能留下来的往往是 pose 而不是 solution。

9. 对科研地图的更新建议

我（Arya）建议你把下列几条带回主工作台：

论文立场标记：🟢（方法论工具可直接采纳），但数据部分存疑——复述时只引 §2–§4，尽量别引 §5 的具体数字。
给学长汇报时的一句话：“这篇 position paper 给我们 latent × audio 这条路线提供了现成的 adjudication 框架；我打算把 §4.2 的 6-arm design 搬到 audio LLM 的 latent thinking 实验上，并主动补一个 filler-latent 的 H0 对照——这是我向 A 会门槛靠拢的一条 concrete 路径。”
等级定位：🟡 方法论重要、empirical 存疑。不要把这篇当 COCONUT/Huginn 那种需要逐字啃的奠基文；它的价值是”给 latent 路线写宪法”。
可抄清单：
- S/Z/B 三分
- Audited budget ledger 公式
- 6-arm × 3-contrast 实验设计
- Mediator 五关（temporal / necessity / sufficiency / specificity / surface-rescue）

10. 压缩卡片（方便以后 5 秒回忆）

这篇说什么：reasoning 的 primary object 应该是 Z（latent trajectory），不是 S（surface CoT），也不是 B（serial compute）。怎么证：三假设 H0/H1/H2 + regime map + 6-arm factorized design + mediator 五关。承认什么：H1 只是 ordinary regime 的 default，H2 在 constitutive 回归，H0 在 search-heavy 回归。我怎么用：把 §4 的 design 搬到 audio × latent thinking；数据部分别引；主动补 filler-latent 实验压 H0。我不同意什么：Z 定义近循环、regime observer-dependent、empirical 过于 clean 有半合成嫌疑、对 filler-token 回应太轻。

Audio Notes

探索

LLM Reasoning Is Latent, Not the Chain of Thought — 精读笔记

0. 元数据 & 速查

1. 必答① · 问题骨架

1.1 作者站在什么未解决的老问题上

1.2 作者被什么逼出了这个 pose

1.3 这个 pose 的骨架新在哪

2. 必答② · 等级判别（A 会门槛 vs ICASSP 天花板）

2.1 判定：方法论定盘级 position paper，不属于”机制/涌现级发现”，也不是”domain transfer 级搬运”

2.2 对用户科研路径的启示

3. 章节精读

§1 Introduction（问题设定）

§2 Problem Formulation

§3 如何重估现有文献

§3.1 H2 的最强 case

§3.2 H0 的最强 case

§3.3 H1 的最强 case

§3.4 Overall adjudication

§3.5 Boundaries and Falsifiers（重要，别漏）

§4 方法论含义

§4.1 为何当前设计不能区分 H1/H2/H0

§4.2 可区分 H1/H2/H0 的实验设计（6 arms × 3 contrasts）

§4.3 两条给未来研究的建议（这篇的实操 takeaway）

§5 Empirical Adjudication Program（“概念验证”章）

§6 Related Work

§7 Conclusion

4. 必答③ · 迁移测试：搬到 audio × latent thinking 上要换什么？会在哪崩？

4.1 S / Z / B 在 audio LLM 上如何具象化

4.2 学长”三件套”框架 × 这篇的 S/Z/B

4.3 会在哪一步崩

4.4 直接可抄的实验骨架（for audio × latent thinking）

5. 必答④ · 下一步问题

5.1 作者明确点出 / 隐藏留白的下一步

5.2 你（用户）可以顺着往下挖的

6. 必答⑤ · 反对意见（必须带具体反例，不许空话）

6.1 “position paper 却自带 empirical section”的漂白嫌疑

6.2 Z 的定义逻辑上接近循环

6.3 H0 被”方法论论证”降格，但 H2 没被同等降格

6.4 Regime 是观察者指定的

6.5 “ordinary regime”本身是个 default-friendly 的构造

6.6 对 filler-token（Pfau 2024）的回应太轻

7. 选答⑥ · Reviewer 视角（想吃透才答）

8. 选答⑦ · 时间尺度（5 年后还会被引吗？）

9. 对科研地图的更新建议

10. 压缩卡片（方便以后 5 秒回忆）

关系图谱

目录