为什么读
“RL 涌现推理”故事最清晰的叙述,开源细节全。核心三篇里最优先。
一句话
推理行为不是被教出来的,是被筛出来的。
重点段落
-
aha moment 那一节
-
奖励设计:只给对错,不给 process reward
-
冷启动 / SFT → RL 的切换点
读完要回答
-
只给对错奖励,为什么能涌现出”反悔 / 自检”?
-
R1-Zero 与 R1 的差异到底在哪里?
“RL 涌现推理”故事最清晰的叙述,开源细节全。核心三篇里最优先。
推理行为不是被教出来的,是被筛出来的。
aha moment 那一节
奖励设计:只给对错,不给 process reward
冷启动 / SFT → RL 的切换点
只给对错奖励,为什么能涌现出”反悔 / 自检”?
R1-Zero 与 R1 的差异到底在哪里?