Important

一句话:这篇 position paper argue 的是——当我们研究 LLM reasoning 时,默认研究对象应该是 latent-state trajectory (Z),而不是 surface CoT (S) 或单纯 serial compute (B);并给出一套 factorized + compute-audited 的实验范式来区分这三者。

0. 元数据 & 速查

字段
标题LLM Reasoning Is Latent, Not the Chain of Thought
作者Wenshuo Wang (SCUT, School of Future Technology)
类型Position Paper(不是实验论文,也不是 method 论文)
arXiv2604.15726v1 (2026-04-17)
主线挂钩latent thinking × audio LLM(学长主线,优先级最高)
重要度重要(方法论定盘级,不是奠基;但它给 latent reasoning 路线定了”读文献的正确姿势”)
阅读清单答题级别①–⑤ 必答,⑥–⑦ 选答

1. 必答① · 问题骨架

1.1 作者站在什么未解决的老问题上

旧问题:CoT 到底帮没帮助?——这个问题已经被 Wei 2022、Wang 2023、Yao 2023 等反复肯定:“帮助”。

作者 pose 的新问题CoT 帮助是在帮助什么? 当你把”给模型更多中间计算”这件事拆开,到底是——

  • S (surface CoT, 可见的自然语言中间串),

  • Z (latent-state trajectory, 隐藏态里承载中间承诺的路径),

  • 还是 B (generic serial compute, 多出来的那几步算力本身)

——在起作用?现有文献的毛病是:每次做实验都同时动了好几个变量(CoT prompting 同时变 S+B;latent reasoning 同时变 Z+B;test-time scaling 只动 B 但往往 output path 也跟着变),所以”CoT 有效”并不自动支持”surface trace 是推理的 primary object”。

1.2 作者被什么逼出了这个 pose

三条相互打架的证据线:

  1. H2 阵营(surface 派):faithful CoT / 工具调用 / 结构化检索显示 visible trace 可以 constitutive;

  2. H0 阵营(compute 派):filler token、self-consistency、test-time scaling 显示大量 gain 其实来自 budget;

  3. H1 阵营(latent 派):propositional probe、early-exit、COCONUT、feature steering 显示承诺先在 hidden state 里形成。

这三条不能同时为真——除非把”reasoning 的主对象是什么”这个问题本身先拆开。所以作者被逼出来的 pose 就是:把 S / Z / B 形式化地区分开,然后 argue 默认对象应该是 Z

1.3 这个 pose 的骨架新在哪

不是新方法,而是 分类学 + 方法论

  • 给 latent reasoning 路线提供理论正当性:以前是”有这么个有趣现象”,现在是”这应该是默认研究对象”;

  • 给未来实验设计提供可证伪的规则:三类 arm () + matched controls () + commitment readout;

  • 给”regime dependency”留了退路:H2 在 constitutive regime(符号/工具)回归,H0 在 search-heavy regime 回归,H1 只是 ordinary regime 的 default。

用”骨架 + 新 pose”框架看:骨架是”reasoning 的 primary object 是谁”这个本体论老问题新 pose 是用 S/Z/B 三分 + regime map + factorized design 把它变成可实验问题。这不是 DL 技巧拼接,是方法论层的新 pose——这也是为什么它能以 position paper 的身份单独立住。


2. 必答② · 等级判别(A 会门槛 vs ICASSP 天花板)

2.1 判定:方法论定盘级 position paper,不属于”机制/涌现级发现”,也不是”domain transfer 级搬运”

凭什么这么判

  • 不做新模型、不报新 SOTA;第 5 章的 empirical program 更像”概念验证”而非独立经验贡献(见 §6 我的反对意见);

  • 它做的是给整条 latent reasoning 子领域重定规则——相当于在说”以后你投 paper 要不要被我这套 S/Z/B + audited budget 接受,是你的事”;

  • 这种贡献在 ICML/NeurIPS 的 Position Paper Track 可以独立立住,但不能去 main track 和实验论文比实验深度。

2.2 对用户科研路径的启示

这篇不能直接模仿发——用户如果复制它的 pose 投 A 会会被拒(position paper 通常只收资深作者)。但它提供了三种可复用的刀

用法
S/Z/B 三分评估任何 latent reasoning 论文时,先问”它动了哪一个”
Regime map判断一个 idea 落在 ordinary / constitutive / search-dominant / mixed,决定预期结论
Factorized + compute-audited design做实验时的自检清单——把这个框架搬到 audio LLM 的 latent thinking 实验里,就是你向 A 会展示 rigor 的方式

与学长”A 会需要机制/涌现级发现”立场的关系:这篇 paper 本身是 position 级不是机制级,但它恰好把”机制级证据 > surface 级证据”这件事写成了方法论教条。你以后想让学长看上你的 idea,可以用这篇的 mediator test 清单(temporal precedence / necessity / sufficiency / specificity / surface-rescue vs corruption)作为”我的实验到不到 A 会门槛”的自检表。


3. 章节精读

§1 Introduction(问题设定)

  • 核心诉求:reasoning 的”primary object”这件事决定了 faithfulness / interpretability / benchmark / intervention 这四条线的立论。

  • 当前文献的系统性缺陷:move several explanatory factors at once——这是作者反复锤的 keyword。

  • 三句可背下来的话:

    • CoT prompting changes both visible traces and compute allocation.

    • Latent reasoning methods often change both hidden-state dynamics and compute budget.

    • Test-time scaling changes compute and usually changes the output path as well.

§2 Problem Formulation

三个解释对象的定义(重点背下来)

符号含义注意事项
Ssemantic content of surface chain-of-thought,即显式自然语言中间串只指语义内容,不是 token 数本身
Ztask-relevant latent-state trajectory不是任意 hidden activation;是承载 intermediate task-relevant commitment 的那条路径;可以跨层跨位置分布,不要求单一 feature 定位
Bgeneric serial compute——额外的迭代/搜索/采样/loop 预算与表示形式无关

三个竞争假设(注意它们在”预测哪里有最强 causal leverage”上是不对称的)

  • H1 latent-trajectory mediation:推理主要由 Z 介导;S 只是 partial interface,可能 report、可能 perturb,但不是默认对象。

  • H2 surface-CoT mediation:推理主要由 S 介导;hidden state 只负责生成 trace;“更多推理 = 更好/更长的 visible trace”。

  • H0 generic-serial-compute null:大部分 reasoning gain 用 B 就能解释;S 还是 Z 只是次要的表示形式问题。

差别化预测(这是 §3 adjudication 的立论根基)

  • H2 对 → surface 干预应该给出最强 causal leverage;

  • H0 对 → matched budget 扩展应该 recover 大部分 gain;

  • H1 对 → latent commitment 常常 早于/独立于/超越 显式 thought,且 latent 干预应改变行为。

§3 如何重估现有文献

作者关键姿态:不做定性 adjudication,按”诊断力”给证据加权

  • 最强权重:compute-matched causal intervention

  • 中等权重:部分 confound 的 intervention study;

  • 最弱权重:probe-only / performance-only association。

§3.1 H2 的最强 case

  • 不靠”CoT 涨点”——这个结果 H0/H1 都能声称;

  • 真正立得住的是”visible trace 被做成 constitutive”的设计:

    • Faithful reasoning pipeline(Creswell & Shanahan 2022;Lyu 2023 Faithful CoT;Logic-LM;FLARE)

    • 结构化检索(Reasoning-in-Trees / PAR²-RAG / MIRAGE)

    • 工具/符号执行、closed-loop 视觉推理

    • Safety 场景下”真正需要 step-by-step 才能作恶”时的 CoT monitorability(Emmons 2025)

  • H2 真正的 claim ceiling:不是”surface mediation 是通则”,而是”在 必须 显式中间计算的任务上,S 可以 constitutive 且 monitorable”。

§3.2 H0 的最强 case

  • 理论支持:Li 2024 CoT-expands-serial-depth;

  • 实证支持:Self-consistency、Tree-of-Thoughts、Snell 2024 test-time scaling、MCTS 多跳 QA、Singhi 2025 solve-vs-verify;

  • 王牌实验:Pfau 2024 Let’s think dot by dot——把中间 token 换成 filler 字符串还能保持大部分 gain。这就是 H0 直接的预测。

  • H0 的天花板:只能解释”budget 为什么有用”,不能解释”为什么 特定 hidden state / feature / trajectory 和 reasoning 行为绑这么紧”。

  • 作者方法论级别的反驳:如果每次 gain 都能被事后重述为”more budget helped”,那 H0 就失去了 discriminatory force(类比 Barsalou et al. 2003 对过于宽松理论的批评)。这一点特别重要——它是把 H0 从”默认选项”降格为”可驳斥假设”的关键逻辑武器。

§3.3 H1 的最强 case

三条线:

  1. Residual(残差论据):即使 H2 最强版本也解释不了”ordinary CoT 常不 faithful”的现象——这是 H1 的 negative evidence。

  2. Probe / timing 证据

    • Feng 2024 propositional probes(output 被 bias/inject 时 latent world-state 仍 faithful);

    • Zhang 2025 reasoning models 的 hidden state 能 predict future answer correctness → early exit;

    • Yang 2024 multi-hop latent reasoning(bridge entity 在 latent 先被 recall & utilize)。

  3. Direct intervention 证据

    • Hao 2024 COCONUT(continuous latent space reasoning, backtracking/BFS-friendly);

    • He 2026 feature steering(小量 reasoning feature 就能替代 CoT);

    • Kazama 2026 GeoSteer、Nguyen 2026 ATLAS、Li 2026 IPG;

    • Saunshi 2025 Looped Transformers(迭代深度模拟多步 CoT)。

诚实声明:不是所有都 compute-matched,作者把它们归为 convergent evidence,不是决定性。

§3.4 Overall adjudication

作者结论:H1 是当前最经济的综合,但只作为 default working hypothesis,不是 task-independent verdict。

§3.5 Boundaries and Falsifiers(重要,别漏)

作者自己划的界:

  • H1 主张每个成功的 reasoning system 都 latent-first;

  • H1 主张每个 hidden activation 都是 reasoning state;

  • Constitutive 场景(必须外显中间态的场景)→ H2 局部回归;

  • Search-heavy 场景(表示形式无关只看 budget)→ H0 局部回归;

  • H1 会被证伪的条件:未来 compute-matched 的 factorized 实验反复显示——要么 surface 干预比 latent 干预更强,要么 compute-only 就能 recover 现在归于 latent 的 gain。

§4 方法论含义

§4.1 为何当前设计不能区分 H1/H2/H0

关键逻辑:“统计显著” ≠ “假设区分性”——如果 H1 和 H2 在某场景下预测一样,那即使实验结果显著,也没有 adjudicative force。

§4.2 可区分 H1/H2/H0 的实验设计(6 arms × 3 contrasts)

三条原则:

  1. Factorize S / Z / B;

  2. 每个干预配 matched control

  3. Differential verdict rule 要写在实验前(预注册思想)。

6 个 arm(背下来,以后自己做实验时当自检表):

  • :baseline

  • :靶向 surface CoT 干预

  • :视觉 budget 相当、但去掉 task-relevant 语义的 surface 控制

  • :靶向 latent 干预

  • :匹配 compute 的 latent sham 干预

  • :纯加 serial budget

3 个 contrast

  • Surface contrast: vs vs → 支持 H2 当且仅当语义改写系统性改答案而 matched 控制不会;

  • Latent contrast: vs vs → 支持 H1;

  • Compute-only contrast: vs 前两条 contrast 的增益 → 如果 能 recover 大部分,H0 赢。

加一项:commitment readout——answer-relevant commitment 是 track 显式 trace,还是更早地在 latent 里成型?不做这个,H1 和 H2 就算实验做了还是 underdetermined。

§4.3 两条给未来研究的建议(这篇的实操 takeaway)

  1. Treat latent-state dynamics as the default object of study——H2 是要 demonstrate 的特殊 regime,不是默认起点。

  2. Evaluate reasoning with factorized, compute-audited designs——要声明每个 family 动的是 S/Z/B 的哪个,给出 audited budget ledger,报告 matched control,预注册 differential verdict rule。

§5 Empirical Adjudication Program(“概念验证”章)

Audited budget ledger(这个公式很有用,搬运到 audio 时做 audit 直接照抄):

Mediator tests(对 Z* 的五关):

  1. Temporal precedence:Z* 在决定性 surface step 之前就预测性;

  2. Necessity:ablate Z* 的伤害 > 最强 sham;

  3. Sufficiency:patch 正确 Z* 进错误 rollout → rescue > random patch;

  4. Specificity:原始干预 vs 最强 sham 有明显差距;

  5. Surface rescue/corruption:在 ordinary regime 下,_preserve Z_ 破坏 S preserve S 破坏 Z** 损失更小。

主结果(Table 1 / Table 2 的压缩版)

  • Controlled tier(合成 state-transition matrix):ordinary 下 Latent 赢、constitutive 下 Surface 赢、search-dominant 下 Compute 赢、mixed 分裂;

  • Naturalistic tier:GSM8K-Platinum(ordinary)Latent 赢、HotpotQA distractor(constitutive)Surface 赢、MATH-500(search)Compute 赢、HumanEval+(mixed)分裂;

  • Mediator:ordinary / GSM8K-Platinum 上 Z* 五关全过;constitutive 上 surface-rescue contrast 反号——作为 boundary check,这是作者最想要的结果。

作者的定位策略很值得学:

  • 承认三条独立研究线都已存在(latent control、CoT 不忠实批判、test-time scaling);

  • argue 缺的是把三条线放在一张竞争图里的工作——这就是本文的 niche。

  • 对 mechanistic 工作(e.g. Iteration Head)特别点评:leverage 不是自动的——没有预注册 component selection、matched nuisance control、跨 S/Z/B 的 causal test,mechanistic 只能揭示内部结构,不能 adjudicate。

§7 Conclusion

一句话:shift the default stance。H1 不是终极答案,是”当 S/Z/B 能干净分离时的最强 default working hypothesis”。


4. 必答③ · 迁移测试:搬到 audio × latent thinking 上要换什么?会在哪崩?

这是你今年的重点——学长已经明确 latent thinking × audio LLM 是方向,这篇等于给你现成的方法论模板

4.1 S / Z / B 在 audio LLM 上如何具象化

抽象量文本 LLMAudio LLM(你的场景)
S显式 textual CoT显式 textual CoT(thinking 版本的 Step Audio 2);或者可解码的中间 transcript/phoneme 序列
ZLLM hidden state trajectory多层候选:(a) audio encoder 输出的 continuous latent;(b) LLM backbone hidden state;(c) decoder 前的 conditioning latent(DiT/BigVGAN 的输入端)
Bdecode steps / search branchesdecode steps + diffusion steps(如果用 DiT 生成)+ rerank/verifier 调用数

4.2 学长”三件套”框架 × 这篇的 S/Z/B

这是两套刀互相验证的地方,笔记要 pin 住:

  • 学长说 Audio-LM = Encoder + LLM backbone + Decoder;每篇 paper 改的是某一个零部件。

  • 这篇说 reasoning 的主体是 Z;而 audio 的 Z 天然就是 continuous 的(因为音频波本身连续),这跟学长”continuous discrete”的立场在方法论上同向加强:不只是生成端连续更好,推理/中间表示端也应该默认 latent-continuous

  • 也就是说:用这篇 paper 的语言,COCONUT 式 latent reasoning × audio 天然比 textual domain 更”domain-native”——你不是在 force 一个反直觉的设定,你是在跟音频的物理连续性对齐。这是你在 rebuttal / 论文 intro 里可以直接写的一句话。

4.3 会在哪一步崩

  • Constitutive regime 在 audio 上稀缺:文本有 HotpotQA 那种可以”retrieval-plan gating”的 task;音频里对应物少——你很难找到一个”必须先 transcript 再答”的自然任务。这意味着 H2 的局部回归场景在 audio 上不好设计 → 你的 baseline 可能被 reviewer 质疑”没有 S 强势的 regime 作为对照”。

    • 对策:人为构造——强制 audio LLM 在回答前先吐出结构化中间态(e.g. 先转 transcript 再回答),作为 constitutive baseline。
  • Search-dominant regime 在 audio 上很强:扩散采样步数、候选 beam、verifier rerank 都是天然的 B-dominant 操作,H0 在 audio 上比在文本上更难被打败。你需要非常谨慎地做 compute audit,否则”Z 赢”的结论会被直接 reduce 到”你只是多跑了 diffusion”。

  • Mediator test 的 Z 定位模糊*:文本 LLM 上 Z 一般指 transformer hidden state;audio 有三层候选,你要先做 calibration 决定选哪层——建议写 paper 时明确”我们定位 Z 于 LLM backbone 的 layer L”并且交代为什么*,否则 reviewer 会咬你”Z 定义太宽”。

  • Filler-token 反例在 audio 上形式不同:Pfau 2024 可以用无意义 token 替换,audio 里的对应是”无语义的 latent noise padding”——这会成为 H0 方向的潜在挑战实验,你应该主动做。

4.4 直接可抄的实验骨架(for audio × latent thinking)

A0  = Qwen2-Audio / Step Audio 2 直接 answer(no thinking)
A_S = Step Audio 2 thinking 模式(显式中间 textual CoT)
A_S_ctrl = 同样长度 visible trace,但中间内容替换为 task-irrelevant 文本
A_Z = COCONUT 风格 continuous latent reasoning,在 LLM backbone 第 L 层注入
A_Z_ctrl = 同 budget,但对 layer L 注入 random direction(sham)
A_B = 原模型 + self-consistency / 扩散步数翻倍(纯加 budget,不改表示)

在三个 regime 上各跑一遍:

  • Ordinary:一般 audio QA / ASR reasoning;

  • Constitutive:人为构造”必须先 transcript 再答”的 task;

  • Search-dominant:音频生成质量类 metric(FAD / MOS)在多次采样 rerank 下。


5. 必答④ · 下一步问题

5.1 作者明确点出 / 隐藏留白的下一步

  • 他点的:“future compute-matched and factorized designs” 去真正 adjudicate H1 vs H2 vs H0;

  • 他隐藏留白(更重要):

    1. Z 的定义还是太宽——“task-relevant latent trajectory, distributed across layers and positions” 这种定义下,你给出几乎任何 probe/steer 成功的 representation 都能叫 Z,这在本体论上危险。谁先给出 Z 的可操作化判准,谁就能把这篇 position paper 推上一层

    2. Regime 本身是 observer-dependent——“ordinary / constitutive / search-dominant”这个分类由研究者指定,不是 task 的客观属性;需要一个”如何事先判定一个 task 属于哪个 regime”的判据。

    3. Mediator test 清单虽好,但成本极高——5 关全过对一篇 empirical paper 是 heavy burden;下一步问题是:哪些 test 可以 pipeline 化 / 哪些可以用 cheap proxy?

5.2 你(用户)可以顺着往下挖的

  • 对 audio × latent reasoning 的 Z 做可操作定义:比如限定为”audio LLM 第 L 层 hidden state 的 PCA 前 k 维”,然后跑 mediator 五关。这个本身就有机会成为一篇 A 会短文。

  • 构造”音频 constitutive regime”的任务集:几乎没有人做过,空白大。

  • Audio 上的 filler-latent 实验:把 Z 换成噪声 latent 看 gain 是否保留,直接挑战 H0 在 audio 上的声量。


6. 必答⑤ · 反对意见(必须带具体反例,不许空话)

6.1 “position paper 却自带 empirical section”的漂白嫌疑

§5 的 Table 1–2 数字过于干净:frontier gap 都在 1.9–3.4 整齐分布、mediator 五关全过、三个 model(Qwen3-8B / 32B / Llama-3.1-8B)行为完全一致、没有 std、没有 seed-level 报告、没有任何 regime 翻船。真实 empirical 实验不会这么 clean。结合 §5.1 那句 “Complete code is provided in the Supplementary Material” 和 Appendix 里 “template families are generated” 的用词——合理怀疑这部分是半合成/模拟数据,功能上是”支撑论点的叙事器”而非独立证据。这削弱了”H1 在 naturalistic 上成立”的说服力。

6.2 Z 的定义逻辑上接近循环

“Z = task-relevant latent states that carry intermediate task-relevant commitments”——注意 task-relevant 出现了两次。这在操作上等价于说”我们把能 probe/steer 出 reasoning 行为的那些 hidden state 叫 Z”。这就让”H1 为真”变得几乎不可证伪:只要找到任何 probe/steer 成功的 case,就可以事后定义 Z 来包住它。作者自己在脚注里试图收紧(“不是任意 hidden activation”),但没有给出前 hoc 的判据。

6.3 H0 被”方法论论证”降格,但 H2 没被同等降格

作者用”如果 H0 能事后吸收任何结果就失去 discriminatory force”(Barsalou 2003 类比)把 H0 判死。但同样的武器同样适用于 H1——只要 Z 定义够宽,任何结果都能事后归给 latent mediation。作者没有对称地对 H1 施加 discriminatory 要求,这是论证上的不对称 selection。

6.4 Regime 是观察者指定的

Table 1 把 HotpotQA distractor 指定为 constitutive、MATH-500 指定为 search-dominant——这个指定是作者做的,不是 task 本身自带的属性。一个反对者完全可以把 HotpotQA 视作 ordinary 来跑 baseline,得到不一样的结论。regime 的 observer-dependence 让”默认对象是 Z”这个主张漂浮在一个可调节参数之上

6.5 “ordinary regime”本身是个 default-friendly 的构造

作者说”在 ordinary regime 下 H1 赢”,但”ordinary”被定义为”没有 constitutive 约束、没有 search-heavy 预算分配”的场景——这几乎就是”把 H2 和 H0 的最强主场排除后剩下的场景”。在把对手主场排除的场景里胜出,其实是论证结构的先验偏置,而不是经验胜出

6.6 对 filler-token(Pfau 2024)的回应太轻

Pfau 的结果是对 H0 的硬证据(也是对 H1 的直接挑战),作者只用一句”still does not prove representation never matters”带过,没有给 filler-token 失败的任务或条件做量化反击。这是明显的证据处理不对称


7. 选答⑥ · Reviewer 视角(想吃透才答)

如果我是 ICML Position Track 的 reviewer:

  • :问题分类清晰,S/Z/B 三分好教学;H1 的 boundary 和 falsifier 写得诚实;方法论那一章(§4)是最有 field-level 价值的部分。

  • Challenge 1:Empirical section 与 position paper 的 scope 不搭——要么扩成独立实验论文,要么索性删掉只保留 conceptual claim,现在这样既达不到实验 rigor 也削弱了 position 纯度。

  • Challenge 2:Z 的本体论状态没讲清——reviewer 会要求明确区分”Z 是实在的 computational object”还是”Z 是解释性建构”。这两种立场对 H1 的 downstream implication 非常不同。

  • Challenge 3:References 里大量 2026 arXiv 未发表工作,且 self-reinforcing(多篇都指向 latent 阵营)——reviewer 会怀疑文献选择偏倚。

  • Limitations 部分作者承认了什么:承认了 regime 依赖、承认了 H1 只是 working hypothesis、承认了部分 latent 干预没 compute-matched。没承认的是 Z 定义宽度和 empirical section 的合成嫌疑。


8. 选答⑦ · 时间尺度(5 年后还会被引吗?)

  • 如果 latent reasoning 真成为主流(2029–2030 年 COCONUT/continuous thought 变成 production 级标配):这篇会被当作”早期方法论呼吁”常被引入 related work,地位类似今天引 Bommasani 2021 Foundation Model 那篇 position paper。

  • 如果 latent reasoning 路线式微(被新的 discrete reasoning 架构覆盖):会被遗忘,因为它赌的是路线而不是新工具。

  • 无论哪种,§4.2 的 6-arm factorized design 作为方法论工具有独立留存价值——这才是这篇最可能 survive 5 年的部分。

  • 它被引会不是因为方法而是因为提了一个分类学问题——这本身就印证了”骨架 + 新 pose”框架里,能留下来的往往是 pose 而不是 solution


9. 对科研地图的更新建议

我(Arya)建议你把下列几条带回主工作台

  1. 论文立场标记:🟢(方法论工具可直接采纳),但数据部分存疑——复述时只引 §2–§4,尽量别引 §5 的具体数字。

  2. 给学长汇报时的一句话:“这篇 position paper 给我们 latent × audio 这条路线提供了现成的 adjudication 框架;我打算把 §4.2 的 6-arm design 搬到 audio LLM 的 latent thinking 实验上,并主动补一个 filler-latent 的 H0 对照——这是我向 A 会门槛靠拢的一条 concrete 路径。”

  3. 等级定位:🟡 方法论重要、empirical 存疑。不要把这篇当 COCONUT/Huginn 那种需要逐字啃的奠基文;它的价值是”给 latent 路线写宪法”。

  4. 可抄清单

    • S/Z/B 三分

    • Audited budget ledger 公式

    • 6-arm × 3-contrast 实验设计

    • Mediator 五关(temporal / necessity / sufficiency / specificity / surface-rescue)


10. 压缩卡片(方便以后 5 秒回忆)

这篇说什么:reasoning 的 primary object 应该是 Z(latent trajectory),不是 S(surface CoT),也不是 B(serial compute)。怎么证:三假设 H0/H1/H2 + regime map + 6-arm factorized design + mediator 五关。承认什么:H1 只是 ordinary regime 的 default,H2 在 constitutive 回归,H0 在 search-heavy 回归。我怎么用:把 §4 的 design 搬到 audio × latent thinking;数据部分别引;主动补 filler-latent 实验压 H0。我不同意什么:Z 定义近循环、regime observer-dependent、empirical 过于 clean 有半合成嫌疑、对 filler-token 回应太轻。