courtland sutton - 搜索 News

资讯

近日，强化学习之父、阿尔伯塔大学教授 Richard Sutton 的团队低调更新了一篇论文，其中提出了一种新的通用思想 Reward Centering，并称该思想适用于几乎所有强化学习算法。这里我们将其译为「奖励聚中」。该论文是首届强化学习会议（RLC 2024）的入选论文之一。

一些您可能无法访问的结果已被隐去。