资讯

依托 AgentGym-RL 框架,研究人员创新性地提出了智能体范式下扩展测试时计算的新路径 —— 扩展环境交互(Scaling Interaction)。其核心是通过增加训练与测试阶段模型和外部环境的交互回合数,让模型借助多轮反馈逐步完善决策、提升表现。