定位

Latent reasoning 分支,不在 CoT/R1 这条明式推理主线上。排在 DeepSeek-R1 / Illusion / o1 这段之后,作为 latent reasoning 分支的第二篇(第一篇是 COCONUT,序号 70 预留)。

为什么读

学长明确点名的 latent thinking 方向主线论文。用 recurrent depth 把 test-time compute 投到隐空间,而不是展开成 token——是「让模型在隐空间里多想几轮」最具代表性的实现之一。

一句话

不写出推理链,而是在隐状态上循环迷迭,用深度换 token 数量。

对照阅读

  • vs DeepSeek-R1:R1 是显式推理(token 级别),Huginn 是隐式推理(hidden state 级别)

  • vs COCONUT:COCONUT 把上一个 hidden state 喜回去,Huginn 在同一层堆栈内循环迷迭。同一类思路的两种实现。

方法笔记 · e 的注入与 path independence

e 如何作为条件注入(Section 2)

每一步循环实际做的不是 ,而是:

  • channel 维 concat + 线性投影,不是相加。相加等价于把 钉死为 ,模型没法自学「这一步要多少 e、多少 h」;concat + project 是相加的严格超集。做法来自 Bansal et al. 2022(deep thinking 迷宫求解器)。

  • 每一步都灌 e,不是只在 给一次。只给一次的话,e 的信息会被循环里的非线性逐层磨掉。

为什么要「随机 + 每步注入 e」—— path independence

两件事咬合才成立,缺一不可:

  • 只随机 、e 只给一次 → 稳态被初始噪声污染,非 path independent。

  • 只每步注入 e、 确定 → 模型学到「从这个固定点出发的 k 步特定展开」,测试时换循环次数就崩。

  • 两者合起来 → 稳态 只依赖 e,与 无关。训练时循环次数 T 随机采样、测试时 T 可调深度,全靠这个前提。

直觉类比 · 高维蛛网图

高中画过的一维递推 蛛网图弯弯绕绕收敛到 的不动点——Huginn 做的就是这件事的高维条件化版本:

  • 状态维度从标量 → ,每个 token 位置各自一条收敛轨迹。

  • 迭代算子从固定 → 条件化的 ;e 一变,整个向量场跟着变,不动点跟着搬家。

  • 序列里 padding 位置也在被循环迭代,但 attention mask 会把它们屏蔽掉——那些位置上的「不动点」是垃圾值,真正在收敛的只有有效 token 位置。

本质还是「反复 apply 一个算子直到动不了」——老题目,新舞台。

读完要回答

  • Recurrent depth 和 COCONUT 的「hidden state 喜回」在数学上等价吗?差在哪?

  • 这条路子搬到 audio 上,主要需要改的是「三件套」的哪一环(encoder / backbone / decoder)?

  • 达到相同效果,循环深度 vs 显式生成的算力划算怎么样?

与学长立场的对照

记忆库 2026-04-20 更新:学长认为 COCONUT 式搬到语音天花板是 ICASSP,投 A 会需要「机制/现象级发现」。Huginn 作为另一种 latent reasoning 实现,读时应重点评估:它的机制是否比 COCONUT 更有机会在音频域挑出“现象级发现”。