资讯

经过深入探究,由INFLY TECH联合复旦大学、格里菲斯大学组成的研究团队发现,问题根源在于传统强化学习训练中使用的"反向KL散度"方法。这种数学工具本应用于控制模型更新幅度,防止新策略偏离原始模型过多,却意外导致了"模式寻求"效应——模型过度聚焦于少数高概率答案,如同学生只钻研特定题型而忽视其他知识,最终造成解答方式单一化。