Huginn：Scaling up Test-Time Compute with Latent Reasoning- A Recurrent Depth Approach

定位

Latent reasoning 分支，不在 CoT/R1 这条明式推理主线上。排在 DeepSeek-R1 / Illusion / o1 这段之后，作为 latent reasoning 分支的第二篇（第一篇是 COCONUT，序号 70 预留）。

为什么读

学长明确点名的 latent thinking 方向主线论文。用 recurrent depth 把 test-time compute 投到隐空间，而不是展开成 token——是「让模型在隐空间里多想几轮」最具代表性的实现之一。

一句话

不写出推理链，而是在隐状态上循环迷迭，用深度换 token 数量。

对照阅读

vs DeepSeek-R1：R1 是显式推理（token 级别），Huginn 是隐式推理（hidden state 级别）
vs COCONUT：COCONUT 把上一个 hidden state 喜回去，Huginn 在同一层堆栈内循环迷迭。同一类思路的两种实现。

方法笔记 · `e` 的注入与 path independence

e 如何作为条件注入（Section 2）

每一步循环实际做的不是 $h_{i + 1} = R (h_{i})$ ，而是：

$h_{i + 1} = R ([h_{i}; e] W_{in})$

channel 维 concat + 线性投影，不是相加。相加等价于把 $W_{in}$ 钉死为 $[I; I]$ ，模型没法自学「这一步要多少 e、多少 h」；concat + project 是相加的严格超集。做法来自 Bansal et al. 2022（deep thinking 迷宫求解器）。
每一步都灌 e，不是只在 $h_{0}$ 给一次。只给一次的话，e 的信息会被循环里的非线性逐层磨掉。

为什么要「随机 $h_{0}$ + 每步注入 e」—— path independence

两件事咬合才成立，缺一不可：

只随机 $h_{0}$ 、e 只给一次 → 稳态被初始噪声污染，非 path independent。
只每步注入 e、 $h_{0}$ 确定 → 模型学到「从这个固定点出发的 k 步特定展开」，测试时换循环次数就崩。
两者合起来 → 稳态 $h^{*} = R ([h^{*}; e] W_{in})$ 只依赖 e，与 $h_{0}$ 无关。训练时循环次数 T 随机采样、测试时 T 可调深度，全靠这个前提。

直觉类比 · 高维蛛网图

高中画过的一维递推 $x_{n + 1} = f (x_{n})$ 蛛网图弯弯绕绕收敛到 $f$ 的不动点——Huginn 做的就是这件事的高维条件化版本：

状态维度从标量 → $(L, d)$ ，每个 token 位置各自一条收敛轨迹。
迭代算子从固定 $f$ → 条件化的 $R (c d o t, e)$ ；e 一变，整个向量场跟着变，不动点跟着搬家。
序列里 padding 位置也在被循环迭代，但 attention mask 会把它们屏蔽掉——那些位置上的「不动点」是垃圾值，真正在收敛的只有有效 token 位置。

本质还是「反复 apply 一个算子直到动不了」——老题目，新舞台。

读完要回答

Recurrent depth 和 COCONUT 的「hidden state 喜回」在数学上等价吗？差在哪？
这条路子搬到 audio 上，主要需要改的是「三件套」的哪一环（encoder / backbone / decoder）？
达到相同效果，循环深度 vs 显式生成的算力划算怎么样？

与学长立场的对照

记忆库 2026-04-20 更新：学长认为 COCONUT 式搬到语音天花板是 ICASSP，投 A 会需要「机制/现象级发现」。Huginn 作为另一种 latent reasoning 实现，读时应重点评估：它的机制是否比 COCONUT 更有机会在音频域挑出“现象级发现”。

Audio Notes

探索

Huginn：Scaling up Test-Time Compute with Latent Reasoning- A Recurrent Depth Approach

定位

为什么读

一句话

对照阅读

方法笔记 · `e` 的注入与 path independence

e 如何作为条件注入（Section 2）

为什么要「随机 $h_{0}$ + 每步注入 e」—— path independence

直觉类比 · 高维蛛网图

读完要回答

与学长立场的对照

关系图谱

目录

Audio Notes

探索

Huginn：Scaling up Test-Time Compute with Latent Reasoning- A Recurrent Depth Approach

定位

为什么读

一句话

对照阅读

方法笔记 · e 的注入与 path independence

e 如何作为条件注入（Section 2）

为什么要「随机 h0​ + 每步注入 e」—— path independence

直觉类比 · 高维蛛网图

读完要回答

与学长立场的对照

关系图谱

目录

方法笔记 · `e` 的注入与 path independence

为什么要「随机 $h_{0}$ + 每步注入 e」—— path independence