Important

问题骨架: 两个并行问题逼出了这篇的 pose。其一,有标注的 rationale 数据稀缺且难以规模化——人工标注 CoT 成本高,模板合成的数据泛化性差,模型只是在记格式而不是在学推理。其二,CoT prompting 有上限,始终打不过在推理数据上直接微调的模型。Pose:让模型用自己答对的 CoT 来训练自己,不需要人工标注,唯一成本是推理算力。

定位

自举推理微调。Reasoning 演化线上第一次把「推理轨迹」本身当训练数据来用。前置背景。

要点

  • 模型自己生成 rationale → 答对的保留 → 再微调

  • 是「用推理过程本身当监督信号」的雏形

对 R1 的影响

从监督蒸馏 CoT,到 RL 筛选 CoT——STaR 是前者的代表,R1 是后者的代表。两条路线的分水岭之前需要先搞清楚 STaR 做到哪一步。