Class 7 Math 5.2 - 搜索 News

资讯

7 小时

涉及这一方法的有两篇发布于今年5月的论文。第一篇是SEALab的《无验证器强化通用推理》。它的逻辑也很简单，就是与其相信外部验证器，不如直接用模型自身对答案的“自信度”来设定奖励。

在过去相当长的一段时间内，强化学习是否能带来推理能力引发了诸多讨论。在多篇论文的累积下，学界逐渐形成了一种共识，即RL更多的只是在做一个搜索剪枝的功能，让采样更有效率，其输出的正确答案，并未超越预训练模型本身的能力。

一些您可能无法访问的结果已被隐去。