资讯

测试时扩展推动了复杂推理领域的重大进展,DeepSeek-R1、Gemini-2.5等领先模型表明,扩展思维链,本质上"更长时间地思考"能显著提升性能,尤其当通过RLVR优化时。然而,对于容易产生微妙中间错误或需要创造性思维转变的难题,长思维链仍存在 ...