资讯

首先,为缓解数据稀缺问题,研究人员设计了一个可扩展的数据飞轮,通过持续预训练、监督微调、拒绝采样和多轮强化学习协同进化模型及其训练语料库。该框架提供持续流入的多样化、高质量轨迹,并确保模型和数据在自我强化的循环中迭代改进。