Audio Notes

❯

❯

📚 论文阅读库

❯

STaR Bootstrapping Reasoning With Reasoning

STaR- Bootstrapping Reasoning With Reasoning

2026年5月07日2分钟阅读

Important

问题骨架： 两个并行问题逼出了这篇的 pose。其一，有标注的 rationale 数据稀缺且难以规模化——人工标注 CoT 成本高，模板合成的数据泛化性差，模型只是在记格式而不是在学推理。其二，CoT prompting 有上限，始终打不过在推理数据上直接微调的模型。Pose：让模型用自己答对的 CoT 来训练自己，不需要人工标注，唯一成本是推理算力。

定位

自举推理微调。Reasoning 演化线上第一次把「推理轨迹」本身当训练数据来用。前置背景。

要点

模型自己生成 rationale → 答对的保留 → 再微调
是「用推理过程本身当监督信号」的雏形

对 R1 的影响

从监督蒸馏 CoT，到 RL 筛选 CoT——STaR 是前者的代表，R1 是后者的代表。两条路线的分水岭之前需要先搞清楚 STaR 做到哪一步。

关系图谱

定位
要点
对 R1 的影响

Created with Quartz v4.5.2 © 2026

GitHub
Blog