Audio Notes

❯

❯

📚 论文阅读库

❯

DeepSeek R1 Technical Report

DeepSeek-R1 Technical Report

2026年5月19日1分钟阅读

为什么读

“RL 涌现推理”故事最清晰的叙述，开源细节全。核心三篇里最优先。

一句话

推理行为不是被教出来的，是被筛出来的。

重点段落

aha moment 那一节
奖励设计：只给对错，不给 process reward
冷启动 / SFT → RL 的切换点

读完要回答

只给对错奖励，为什么能涌现出”反悔 / 自检”？
R1-Zero 与 R1 的差异到底在哪里？

关系图谱

为什么读
一句话
重点段落
读完要回答

Created with Quartz v4.5.2 © 2026

GitHub
Blog