为什么读

“RL 涌现推理”故事最清晰的叙述,开源细节全。核心三篇里最优先。

一句话

推理行为不是被教出来的,是被筛出来的。

重点段落

  • aha moment 那一节

  • 奖励设计:只给对错,不给 process reward

  • 冷启动 / SFT → RL 的切换点

读完要回答

  • 只给对错奖励,为什么能涌现出”反悔 / 自检”?

  • R1-Zero 与 R1 的差异到底在哪里?