定位 CoT 的第一个重要扩展。前置背景,快速过。 要点 多次采样 + 投票 = 比单条 CoT 稳得多 推理正确率对 decoding 策略非常敏感 读 R1 时要回答 Self-Consistency 在 RL 推理时代被作废了,还是被升格进训练目标里了?