资讯

涉及这一方法的有两篇发布于今年5月的论文。第一篇是SEALab的《无验证器强化通用推理》。它的逻辑也很简单,就是与其相信外部验证器,不如直接 用模型自身对答案的“自信度”来设定奖励。