资讯

近日,强化学习之父、阿尔伯塔大学教授 Richard Sutton 的团队低调更新了一篇论文,其中提出了一种新的通用思想 Reward Centering,并称该思想适用于几乎所有强化学习算法。 这里我们将其译为「奖励聚中」。 该论文是首届强化学习会议(RLC 2024)的入选论文之一。