资讯

本文介绍了在红队测试语言模型方面的早期探索工作,旨在同时发现、衡量并尝试降低模型潜在的有害输出。研究发现,随着规模扩大,RLHF 模型的红队测试难度显著增加,而其他模型类型则未表现出明显的规模趋势。本文还公开发布了包含 38,961 ...