资讯

微软研究院开源了一款AI Agent推理模型rStar2-Agent。 该模型使用了创新的智能体强化学习方法,只有140亿参数,但在AIME24数学推理测试中达到了80.6%准确率,超过了拥有6710亿参数的DeepSeek-R1的 ...