定位
Latent reasoning 分支,不在 CoT/R1 这条明式推理主线上。排在 DeepSeek-R1 / Illusion / o1 这段之后,作为 latent reasoning 分支的第二篇(第一篇是 COCONUT,序号 70 预留)。
为什么读
学长明确点名的 latent thinking 方向主线论文。用 recurrent depth 把 test-time compute 投到隐空间,而不是展开成 token——是「让模型在隐空间里多想几轮」最具代表性的实现之一。
一句话
不写出推理链,而是在隐状态上循环迷迭,用深度换 token 数量。
对照阅读
-
vs DeepSeek-R1:R1 是显式推理(token 级别),Huginn 是隐式推理(hidden state 级别)
-
vs COCONUT:COCONUT 把上一个 hidden state 喜回去,Huginn 在同一层堆栈内循环迷迭。同一类思路的两种实现。
方法笔记 · e 的注入与 path independence
e 如何作为条件注入(Section 2)
每一步循环实际做的不是 ,而是:
-
channel 维 concat + 线性投影,不是相加。相加等价于把 钉死为 ,模型没法自学「这一步要多少 e、多少 h」;concat + project 是相加的严格超集。做法来自 Bansal et al. 2022(deep thinking 迷宫求解器)。
-
每一步都灌 e,不是只在 给一次。只给一次的话,e 的信息会被循环里的非线性逐层磨掉。
为什么要「随机 + 每步注入 e」—— path independence
两件事咬合才成立,缺一不可:
-
只随机 、e 只给一次 → 稳态被初始噪声污染,非 path independent。
-
只每步注入 e、 确定 → 模型学到「从这个固定点出发的 k 步特定展开」,测试时换循环次数就崩。
-
两者合起来 → 稳态 只依赖 e,与 无关。训练时循环次数 T 随机采样、测试时 T 可调深度,全靠这个前提。
直觉类比 · 高维蛛网图
高中画过的一维递推 蛛网图弯弯绕绕收敛到 的不动点——Huginn 做的就是这件事的高维条件化版本:
-
状态维度从标量 → ,每个 token 位置各自一条收敛轨迹。
-
迭代算子从固定 → 条件化的 ;e 一变,整个向量场跟着变,不动点跟着搬家。
-
序列里 padding 位置也在被循环迭代,但 attention mask 会把它们屏蔽掉——那些位置上的「不动点」是垃圾值,真正在收敛的只有有效 token 位置。
本质还是「反复 apply 一个算子直到动不了」——老题目,新舞台。
读完要回答
-
Recurrent depth 和 COCONUT 的「hidden state 喜回」在数学上等价吗?差在哪?
-
这条路子搬到 audio 上,主要需要改的是「三件套」的哪一环(encoder / backbone / decoder)?
-
达到相同效果,循环深度 vs 显式生成的算力划算怎么样?
与学长立场的对照
记忆库 2026-04-20 更新:学长认为 COCONUT 式搬到语音天花板是 ICASSP,投 A 会需要「机制/现象级发现」。Huginn 作为另一种 latent reasoning 实现,读时应重点评估:它的机制是否比 COCONUT 更有机会在音频域挑出“现象级发现”。