为什么读

专打 R1 类模型,用来建立”推理 vs 模仿”的判断力,避免只听一面之词。

一句话

分布外扰动下,推理模型会断崖式崩塌。

对照阅读

与 DeepSeek-R1 正反对读:一个讲涌现,一个讲幻觉。

读完要回答

  • 崩塌是推理失效还是 prompt pattern 失效?

  • 推理模型的能力边界长什么形状?