为什么读
专打 R1 类模型,用来建立”推理 vs 模仿”的判断力,避免只听一面之词。
一句话
分布外扰动下,推理模型会断崖式崩塌。
对照阅读
与 DeepSeek-R1 正反对读:一个讲涌现,一个讲幻觉。
读完要回答
-
崩塌是推理失效还是 prompt pattern 失效?
-
推理模型的能力边界长什么形状?
专打 R1 类模型,用来建立”推理 vs 模仿”的判断力,避免只听一面之词。
分布外扰动下,推理模型会断崖式崩塌。
与 DeepSeek-R1 正反对读:一个讲涌现,一个讲幻觉。
崩塌是推理失效还是 prompt pattern 失效?
推理模型的能力边界长什么形状?