定位

CoT 的第一个重要扩展。前置背景,快速过。

要点

  • 多次采样 + 投票 = 比单条 CoT 稳得多

  • 推理正确率对 decoding 策略非常敏感

读 R1 时要回答

  • Self-Consistency 在 RL 推理时代被作废了,还是被升格进训练目标里了?