Important
一句话:这篇 position paper argue 的是——当我们研究 LLM reasoning 时,默认研究对象应该是 latent-state trajectory (Z),而不是 surface CoT (S) 或单纯 serial compute (B);并给出一套 factorized + compute-audited 的实验范式来区分这三者。
0. 元数据 & 速查
| 字段 | 值 |
|---|---|
| 标题 | LLM Reasoning Is Latent, Not the Chain of Thought |
| 作者 | Wenshuo Wang (SCUT, School of Future Technology) |
| 类型 | Position Paper(不是实验论文,也不是 method 论文) |
| arXiv | 2604.15726v1 (2026-04-17) |
| 主线挂钩 | latent thinking × audio LLM(学长主线,优先级最高) |
| 重要度 | 重要(方法论定盘级,不是奠基;但它给 latent reasoning 路线定了”读文献的正确姿势”) |
| 阅读清单答题级别 | ①–⑤ 必答,⑥–⑦ 选答 |
1. 必答① · 问题骨架
1.1 作者站在什么未解决的老问题上
旧问题:CoT 到底帮没帮助?——这个问题已经被 Wei 2022、Wang 2023、Yao 2023 等反复肯定:“帮助”。
作者 pose 的新问题:CoT 帮助是在帮助什么? 当你把”给模型更多中间计算”这件事拆开,到底是——
-
S (surface CoT, 可见的自然语言中间串),
-
Z (latent-state trajectory, 隐藏态里承载中间承诺的路径),
-
还是 B (generic serial compute, 多出来的那几步算力本身)
——在起作用?现有文献的毛病是:每次做实验都同时动了好几个变量(CoT prompting 同时变 S+B;latent reasoning 同时变 Z+B;test-time scaling 只动 B 但往往 output path 也跟着变),所以”CoT 有效”并不自动支持”surface trace 是推理的 primary object”。
1.2 作者被什么逼出了这个 pose
三条相互打架的证据线:
-
H2 阵营(surface 派):faithful CoT / 工具调用 / 结构化检索显示 visible trace 可以 constitutive;
-
H0 阵营(compute 派):filler token、self-consistency、test-time scaling 显示大量 gain 其实来自 budget;
-
H1 阵营(latent 派):propositional probe、early-exit、COCONUT、feature steering 显示承诺先在 hidden state 里形成。
这三条不能同时为真——除非把”reasoning 的主对象是什么”这个问题本身先拆开。所以作者被逼出来的 pose 就是:把 S / Z / B 形式化地区分开,然后 argue 默认对象应该是 Z。
1.3 这个 pose 的骨架新在哪
不是新方法,而是 分类学 + 方法论:
-
给 latent reasoning 路线提供理论正当性:以前是”有这么个有趣现象”,现在是”这应该是默认研究对象”;
-
给未来实验设计提供可证伪的规则:三类 arm () + matched controls () + commitment readout;
-
给”regime dependency”留了退路:H2 在 constitutive regime(符号/工具)回归,H0 在 search-heavy regime 回归,H1 只是 ordinary regime 的 default。
用”骨架 + 新 pose”框架看:骨架是”reasoning 的 primary object 是谁”这个本体论老问题;新 pose 是用 S/Z/B 三分 + regime map + factorized design 把它变成可实验问题。这不是 DL 技巧拼接,是方法论层的新 pose——这也是为什么它能以 position paper 的身份单独立住。
2. 必答② · 等级判别(A 会门槛 vs ICASSP 天花板)
2.1 判定:方法论定盘级 position paper,不属于”机制/涌现级发现”,也不是”domain transfer 级搬运”
凭什么这么判:
-
它不做新模型、不报新 SOTA;第 5 章的 empirical program 更像”概念验证”而非独立经验贡献(见 §6 我的反对意见);
-
它做的是给整条 latent reasoning 子领域重定规则——相当于在说”以后你投 paper 要不要被我这套 S/Z/B + audited budget 接受,是你的事”;
-
这种贡献在 ICML/NeurIPS 的 Position Paper Track 可以独立立住,但不能去 main track 和实验论文比实验深度。
2.2 对用户科研路径的启示
这篇不能直接模仿发——用户如果复制它的 pose 投 A 会会被拒(position paper 通常只收资深作者)。但它提供了三种可复用的刀:
| 刀 | 用法 |
|---|---|
| S/Z/B 三分 | 评估任何 latent reasoning 论文时,先问”它动了哪一个” |
| Regime map | 判断一个 idea 落在 ordinary / constitutive / search-dominant / mixed,决定预期结论 |
| Factorized + compute-audited design | 做实验时的自检清单——把这个框架搬到 audio LLM 的 latent thinking 实验里,就是你向 A 会展示 rigor 的方式 |
与学长”A 会需要机制/涌现级发现”立场的关系:这篇 paper 本身是 position 级不是机制级,但它恰好把”机制级证据 > surface 级证据”这件事写成了方法论教条。你以后想让学长看上你的 idea,可以用这篇的 mediator test 清单(temporal precedence / necessity / sufficiency / specificity / surface-rescue vs corruption)作为”我的实验到不到 A 会门槛”的自检表。
3. 章节精读
§1 Introduction(问题设定)
-
核心诉求:reasoning 的”primary object”这件事决定了 faithfulness / interpretability / benchmark / intervention 这四条线的立论。
-
当前文献的系统性缺陷:move several explanatory factors at once——这是作者反复锤的 keyword。
-
三句可背下来的话:
-
CoT prompting changes both visible traces and compute allocation.
-
Latent reasoning methods often change both hidden-state dynamics and compute budget.
-
Test-time scaling changes compute and usually changes the output path as well.
-
§2 Problem Formulation
三个解释对象的定义(重点背下来):
| 符号 | 含义 | 注意事项 |
|---|---|---|
| S | semantic content of surface chain-of-thought,即显式自然语言中间串 | 只指语义内容,不是 token 数本身 |
| Z | task-relevant latent-state trajectory | 不是任意 hidden activation;是承载 intermediate task-relevant commitment 的那条路径;可以跨层跨位置分布,不要求单一 feature 定位 |
| B | generic serial compute——额外的迭代/搜索/采样/loop 预算 | 与表示形式无关 |
三个竞争假设(注意它们在”预测哪里有最强 causal leverage”上是不对称的):
-
H1 latent-trajectory mediation:推理主要由 Z 介导;S 只是 partial interface,可能 report、可能 perturb,但不是默认对象。
-
H2 surface-CoT mediation:推理主要由 S 介导;hidden state 只负责生成 trace;“更多推理 = 更好/更长的 visible trace”。
-
H0 generic-serial-compute null:大部分 reasoning gain 用 B 就能解释;S 还是 Z 只是次要的表示形式问题。
差别化预测(这是 §3 adjudication 的立论根基):
-
H2 对 → surface 干预应该给出最强 causal leverage;
-
H0 对 → matched budget 扩展应该 recover 大部分 gain;
-
H1 对 → latent commitment 常常 早于/独立于/超越 显式 thought,且 latent 干预应改变行为。
§3 如何重估现有文献
作者关键姿态:不做定性 adjudication,按”诊断力”给证据加权。
-
最强权重:compute-matched causal intervention;
-
中等权重:部分 confound 的 intervention study;
-
最弱权重:probe-only / performance-only association。
§3.1 H2 的最强 case
-
不靠”CoT 涨点”——这个结果 H0/H1 都能声称;
-
真正立得住的是”visible trace 被做成 constitutive”的设计:
-
Faithful reasoning pipeline(Creswell & Shanahan 2022;Lyu 2023 Faithful CoT;Logic-LM;FLARE)
-
结构化检索(Reasoning-in-Trees / PAR²-RAG / MIRAGE)
-
工具/符号执行、closed-loop 视觉推理
-
Safety 场景下”真正需要 step-by-step 才能作恶”时的 CoT monitorability(Emmons 2025)
-
-
H2 真正的 claim ceiling:不是”surface mediation 是通则”,而是”在 必须 显式中间计算的任务上,S 可以 constitutive 且 monitorable”。
§3.2 H0 的最强 case
-
理论支持:Li 2024 CoT-expands-serial-depth;
-
实证支持:Self-consistency、Tree-of-Thoughts、Snell 2024 test-time scaling、MCTS 多跳 QA、Singhi 2025 solve-vs-verify;
-
王牌实验:Pfau 2024 Let’s think dot by dot——把中间 token 换成 filler 字符串还能保持大部分 gain。这就是 H0 直接的预测。
-
H0 的天花板:只能解释”budget 为什么有用”,不能解释”为什么 特定 hidden state / feature / trajectory 和 reasoning 行为绑这么紧”。
-
作者方法论级别的反驳:如果每次 gain 都能被事后重述为”more budget helped”,那 H0 就失去了 discriminatory force(类比 Barsalou et al. 2003 对过于宽松理论的批评)。这一点特别重要——它是把 H0 从”默认选项”降格为”可驳斥假设”的关键逻辑武器。
§3.3 H1 的最强 case
三条线:
-
Residual(残差论据):即使 H2 最强版本也解释不了”ordinary CoT 常不 faithful”的现象——这是 H1 的 negative evidence。
-
Probe / timing 证据:
-
Feng 2024 propositional probes(output 被 bias/inject 时 latent world-state 仍 faithful);
-
Zhang 2025 reasoning models 的 hidden state 能 predict future answer correctness → early exit;
-
Yang 2024 multi-hop latent reasoning(bridge entity 在 latent 先被 recall & utilize)。
-
-
Direct intervention 证据:
-
Hao 2024 COCONUT(continuous latent space reasoning, backtracking/BFS-friendly);
-
He 2026 feature steering(小量 reasoning feature 就能替代 CoT);
-
Kazama 2026 GeoSteer、Nguyen 2026 ATLAS、Li 2026 IPG;
-
Saunshi 2025 Looped Transformers(迭代深度模拟多步 CoT)。
-
诚实声明:不是所有都 compute-matched,作者把它们归为 convergent evidence,不是决定性。
§3.4 Overall adjudication
作者结论:H1 是当前最经济的综合,但只作为 default working hypothesis,不是 task-independent verdict。
§3.5 Boundaries and Falsifiers(重要,别漏)
作者自己划的界:
-
H1 不 主张每个成功的 reasoning system 都 latent-first;
-
H1 不 主张每个 hidden activation 都是 reasoning state;
-
Constitutive 场景(必须外显中间态的场景)→ H2 局部回归;
-
Search-heavy 场景(表示形式无关只看 budget)→ H0 局部回归;
-
H1 会被证伪的条件:未来 compute-matched 的 factorized 实验反复显示——要么 surface 干预比 latent 干预更强,要么 compute-only 就能 recover 现在归于 latent 的 gain。
§4 方法论含义
§4.1 为何当前设计不能区分 H1/H2/H0
关键逻辑:“统计显著” ≠ “假设区分性”——如果 H1 和 H2 在某场景下预测一样,那即使实验结果显著,也没有 adjudicative force。
§4.2 可区分 H1/H2/H0 的实验设计(6 arms × 3 contrasts)
三条原则:
-
Factorize S / Z / B;
-
每个干预配 matched control;
-
Differential verdict rule 要写在实验前(预注册思想)。
6 个 arm(背下来,以后自己做实验时当自检表):
-
:baseline
-
:靶向 surface CoT 干预
-
:视觉 budget 相当、但去掉 task-relevant 语义的 surface 控制
-
:靶向 latent 干预
-
:匹配 compute 的 latent sham 干预
-
:纯加 serial budget
3 个 contrast:
-
Surface contrast: vs vs → 支持 H2 当且仅当语义改写系统性改答案而 matched 控制不会;
-
Latent contrast: vs vs → 支持 H1;
-
Compute-only contrast: vs 前两条 contrast 的增益 → 如果 能 recover 大部分,H0 赢。
加一项:commitment readout——answer-relevant commitment 是 track 显式 trace,还是更早地在 latent 里成型?不做这个,H1 和 H2 就算实验做了还是 underdetermined。
§4.3 两条给未来研究的建议(这篇的实操 takeaway)
-
Treat latent-state dynamics as the default object of study——H2 是要 demonstrate 的特殊 regime,不是默认起点。
-
Evaluate reasoning with factorized, compute-audited designs——要声明每个 family 动的是 S/Z/B 的哪个,给出 audited budget ledger,报告 matched control,预注册 differential verdict rule。
§5 Empirical Adjudication Program(“概念验证”章)
Audited budget ledger(这个公式很有用,搬运到 audio 时做 audit 直接照抄):
Mediator tests(对 Z* 的五关):
-
Temporal precedence:Z* 在决定性 surface step 之前就预测性;
-
Necessity:ablate Z* 的伤害 > 最强 sham;
-
Sufficiency:patch 正确 Z* 进错误 rollout → rescue > random patch;
-
Specificity:原始干预 vs 最强 sham 有明显差距;
-
Surface rescue/corruption:在 ordinary regime 下,_preserve Z_ 破坏 S 比 preserve S 破坏 Z** 损失更小。
主结果(Table 1 / Table 2 的压缩版):
-
Controlled tier(合成 state-transition matrix):ordinary 下 Latent 赢、constitutive 下 Surface 赢、search-dominant 下 Compute 赢、mixed 分裂;
-
Naturalistic tier:GSM8K-Platinum(ordinary)Latent 赢、HotpotQA distractor(constitutive)Surface 赢、MATH-500(search)Compute 赢、HumanEval+(mixed)分裂;
-
Mediator:ordinary / GSM8K-Platinum 上 Z* 五关全过;constitutive 上 surface-rescue contrast 反号——作为 boundary check,这是作者最想要的结果。
§6 Related Work
作者的定位策略很值得学:
-
承认三条独立研究线都已存在(latent control、CoT 不忠实批判、test-time scaling);
-
argue 缺的是把三条线放在一张竞争图里的工作——这就是本文的 niche。
-
对 mechanistic 工作(e.g. Iteration Head)特别点评:leverage 不是自动的——没有预注册 component selection、matched nuisance control、跨 S/Z/B 的 causal test,mechanistic 只能揭示内部结构,不能 adjudicate。
§7 Conclusion
一句话:shift the default stance。H1 不是终极答案,是”当 S/Z/B 能干净分离时的最强 default working hypothesis”。
4. 必答③ · 迁移测试:搬到 audio × latent thinking 上要换什么?会在哪崩?
这是你今年的重点——学长已经明确 latent thinking × audio LLM 是方向,这篇等于给你现成的方法论模板。
4.1 S / Z / B 在 audio LLM 上如何具象化
| 抽象量 | 文本 LLM | Audio LLM(你的场景) |
|---|---|---|
| S | 显式 textual CoT | 显式 textual CoT(thinking 版本的 Step Audio 2);或者可解码的中间 transcript/phoneme 序列 |
| Z | LLM hidden state trajectory | 多层候选:(a) audio encoder 输出的 continuous latent;(b) LLM backbone hidden state;(c) decoder 前的 conditioning latent(DiT/BigVGAN 的输入端) |
| B | decode steps / search branches | decode steps + diffusion steps(如果用 DiT 生成)+ rerank/verifier 调用数 |
4.2 学长”三件套”框架 × 这篇的 S/Z/B
这是两套刀互相验证的地方,笔记要 pin 住:
-
学长说 Audio-LM = Encoder + LLM backbone + Decoder;每篇 paper 改的是某一个零部件。
-
这篇说 reasoning 的主体是 Z;而 audio 的 Z 天然就是 continuous 的(因为音频波本身连续),这跟学长”continuous discrete”的立场在方法论上同向加强:不只是生成端连续更好,推理/中间表示端也应该默认 latent-continuous。
-
也就是说:用这篇 paper 的语言,COCONUT 式 latent reasoning × audio 天然比 textual domain 更”domain-native”——你不是在 force 一个反直觉的设定,你是在跟音频的物理连续性对齐。这是你在 rebuttal / 论文 intro 里可以直接写的一句话。
4.3 会在哪一步崩
-
Constitutive regime 在 audio 上稀缺:文本有 HotpotQA 那种可以”retrieval-plan gating”的 task;音频里对应物少——你很难找到一个”必须先 transcript 再答”的自然任务。这意味着 H2 的局部回归场景在 audio 上不好设计 → 你的 baseline 可能被 reviewer 质疑”没有 S 强势的 regime 作为对照”。
- 对策:人为构造——强制 audio LLM 在回答前先吐出结构化中间态(e.g. 先转 transcript 再回答),作为 constitutive baseline。
-
Search-dominant regime 在 audio 上很强:扩散采样步数、候选 beam、verifier rerank 都是天然的 B-dominant 操作,H0 在 audio 上比在文本上更难被打败。你需要非常谨慎地做 compute audit,否则”Z 赢”的结论会被直接 reduce 到”你只是多跑了 diffusion”。
-
Mediator test 的 Z 定位模糊*:文本 LLM 上 Z 一般指 transformer hidden state;audio 有三层候选,你要先做 calibration 决定选哪层——建议写 paper 时明确”我们定位 Z 于 LLM backbone 的 layer L”并且交代为什么*,否则 reviewer 会咬你”Z 定义太宽”。
-
Filler-token 反例在 audio 上形式不同:Pfau 2024 可以用无意义 token 替换,audio 里的对应是”无语义的 latent noise padding”——这会成为 H0 方向的潜在挑战实验,你应该主动做。
4.4 直接可抄的实验骨架(for audio × latent thinking)
A0 = Qwen2-Audio / Step Audio 2 直接 answer(no thinking)
A_S = Step Audio 2 thinking 模式(显式中间 textual CoT)
A_S_ctrl = 同样长度 visible trace,但中间内容替换为 task-irrelevant 文本
A_Z = COCONUT 风格 continuous latent reasoning,在 LLM backbone 第 L 层注入
A_Z_ctrl = 同 budget,但对 layer L 注入 random direction(sham)
A_B = 原模型 + self-consistency / 扩散步数翻倍(纯加 budget,不改表示)在三个 regime 上各跑一遍:
-
Ordinary:一般 audio QA / ASR reasoning;
-
Constitutive:人为构造”必须先 transcript 再答”的 task;
-
Search-dominant:音频生成质量类 metric(FAD / MOS)在多次采样 rerank 下。
5. 必答④ · 下一步问题
5.1 作者明确点出 / 隐藏留白的下一步
-
他点的:“future compute-matched and factorized designs” 去真正 adjudicate H1 vs H2 vs H0;
-
他隐藏留白(更重要):
-
Z 的定义还是太宽——“task-relevant latent trajectory, distributed across layers and positions” 这种定义下,你给出几乎任何 probe/steer 成功的 representation 都能叫 Z,这在本体论上危险。谁先给出 Z 的可操作化判准,谁就能把这篇 position paper 推上一层。
-
Regime 本身是 observer-dependent——“ordinary / constitutive / search-dominant”这个分类由研究者指定,不是 task 的客观属性;需要一个”如何事先判定一个 task 属于哪个 regime”的判据。
-
Mediator test 清单虽好,但成本极高——5 关全过对一篇 empirical paper 是 heavy burden;下一步问题是:哪些 test 可以 pipeline 化 / 哪些可以用 cheap proxy?
-
5.2 你(用户)可以顺着往下挖的
-
对 audio × latent reasoning 的 Z 做可操作定义:比如限定为”audio LLM 第 L 层 hidden state 的 PCA 前 k 维”,然后跑 mediator 五关。这个本身就有机会成为一篇 A 会短文。
-
构造”音频 constitutive regime”的任务集:几乎没有人做过,空白大。
-
Audio 上的 filler-latent 实验:把 Z 换成噪声 latent 看 gain 是否保留,直接挑战 H0 在 audio 上的声量。
6. 必答⑤ · 反对意见(必须带具体反例,不许空话)
6.1 “position paper 却自带 empirical section”的漂白嫌疑
§5 的 Table 1–2 数字过于干净:frontier gap 都在 1.9–3.4 整齐分布、mediator 五关全过、三个 model(Qwen3-8B / 32B / Llama-3.1-8B)行为完全一致、没有 std、没有 seed-level 报告、没有任何 regime 翻船。真实 empirical 实验不会这么 clean。结合 §5.1 那句 “Complete code is provided in the Supplementary Material” 和 Appendix 里 “template families are generated” 的用词——合理怀疑这部分是半合成/模拟数据,功能上是”支撑论点的叙事器”而非独立证据。这削弱了”H1 在 naturalistic 上成立”的说服力。
6.2 Z 的定义逻辑上接近循环
“Z = task-relevant latent states that carry intermediate task-relevant commitments”——注意 task-relevant 出现了两次。这在操作上等价于说”我们把能 probe/steer 出 reasoning 行为的那些 hidden state 叫 Z”。这就让”H1 为真”变得几乎不可证伪:只要找到任何 probe/steer 成功的 case,就可以事后定义 Z 来包住它。作者自己在脚注里试图收紧(“不是任意 hidden activation”),但没有给出前 hoc 的判据。
6.3 H0 被”方法论论证”降格,但 H2 没被同等降格
作者用”如果 H0 能事后吸收任何结果就失去 discriminatory force”(Barsalou 2003 类比)把 H0 判死。但同样的武器同样适用于 H1——只要 Z 定义够宽,任何结果都能事后归给 latent mediation。作者没有对称地对 H1 施加 discriminatory 要求,这是论证上的不对称 selection。
6.4 Regime 是观察者指定的
Table 1 把 HotpotQA distractor 指定为 constitutive、MATH-500 指定为 search-dominant——这个指定是作者做的,不是 task 本身自带的属性。一个反对者完全可以把 HotpotQA 视作 ordinary 来跑 baseline,得到不一样的结论。regime 的 observer-dependence 让”默认对象是 Z”这个主张漂浮在一个可调节参数之上。
6.5 “ordinary regime”本身是个 default-friendly 的构造
作者说”在 ordinary regime 下 H1 赢”,但”ordinary”被定义为”没有 constitutive 约束、没有 search-heavy 预算分配”的场景——这几乎就是”把 H2 和 H0 的最强主场排除后剩下的场景”。在把对手主场排除的场景里胜出,其实是论证结构的先验偏置,而不是经验胜出。
6.6 对 filler-token(Pfau 2024)的回应太轻
Pfau 的结果是对 H0 的硬证据(也是对 H1 的直接挑战),作者只用一句”still does not prove representation never matters”带过,没有给 filler-token 失败的任务或条件做量化反击。这是明显的证据处理不对称。
7. 选答⑥ · Reviewer 视角(想吃透才答)
如果我是 ICML Position Track 的 reviewer:
-
赞:问题分类清晰,S/Z/B 三分好教学;H1 的 boundary 和 falsifier 写得诚实;方法论那一章(§4)是最有 field-level 价值的部分。
-
Challenge 1:Empirical section 与 position paper 的 scope 不搭——要么扩成独立实验论文,要么索性删掉只保留 conceptual claim,现在这样既达不到实验 rigor 也削弱了 position 纯度。
-
Challenge 2:Z 的本体论状态没讲清——reviewer 会要求明确区分”Z 是实在的 computational object”还是”Z 是解释性建构”。这两种立场对 H1 的 downstream implication 非常不同。
-
Challenge 3:References 里大量 2026 arXiv 未发表工作,且 self-reinforcing(多篇都指向 latent 阵营)——reviewer 会怀疑文献选择偏倚。
-
Limitations 部分作者承认了什么:承认了 regime 依赖、承认了 H1 只是 working hypothesis、承认了部分 latent 干预没 compute-matched。没承认的是 Z 定义宽度和 empirical section 的合成嫌疑。
8. 选答⑦ · 时间尺度(5 年后还会被引吗?)
-
如果 latent reasoning 真成为主流(2029–2030 年 COCONUT/continuous thought 变成 production 级标配):这篇会被当作”早期方法论呼吁”常被引入 related work,地位类似今天引 Bommasani 2021 Foundation Model 那篇 position paper。
-
如果 latent reasoning 路线式微(被新的 discrete reasoning 架构覆盖):会被遗忘,因为它赌的是路线而不是新工具。
-
无论哪种,§4.2 的 6-arm factorized design 作为方法论工具有独立留存价值——这才是这篇最可能 survive 5 年的部分。
-
它被引会不是因为方法,而是因为提了一个分类学问题——这本身就印证了”骨架 + 新 pose”框架里,能留下来的往往是 pose 而不是 solution。
9. 对科研地图的更新建议
我(Arya)建议你把下列几条带回主工作台:
-
论文立场标记:🟢(方法论工具可直接采纳),但数据部分存疑——复述时只引 §2–§4,尽量别引 §5 的具体数字。
-
给学长汇报时的一句话:“这篇 position paper 给我们 latent × audio 这条路线提供了现成的 adjudication 框架;我打算把 §4.2 的 6-arm design 搬到 audio LLM 的 latent thinking 实验上,并主动补一个 filler-latent 的 H0 对照——这是我向 A 会门槛靠拢的一条 concrete 路径。”
-
等级定位:🟡 方法论重要、empirical 存疑。不要把这篇当 COCONUT/Huginn 那种需要逐字啃的奠基文;它的价值是”给 latent 路线写宪法”。
-
可抄清单:
-
S/Z/B 三分
-
Audited budget ledger 公式
-
6-arm × 3-contrast 实验设计
-
Mediator 五关(temporal / necessity / sufficiency / specificity / surface-rescue)
-
10. 压缩卡片(方便以后 5 秒回忆)
这篇说什么:reasoning 的 primary object 应该是 Z(latent trajectory),不是 S(surface CoT),也不是 B(serial compute)。怎么证:三假设 H0/H1/H2 + regime map + 6-arm factorized design + mediator 五关。承认什么:H1 只是 ordinary regime 的 default,H2 在 constitutive 回归,H0 在 search-heavy 回归。我怎么用:把 §4 的 design 搬到 audio × latent thinking;数据部分别引;主动补 filler-latent 实验压 H0。我不同意什么:Z 定义近循环、regime observer-dependent、empirical 过于 clean 有半合成嫌疑、对 filler-token 回应太轻。