hacking - 搜索 News

资讯

5 小时

给大模型生图“去油”，腾讯混元新研究 SRPO 公布

IT之家 9 月 17 日消息，腾讯混元今晚通过官方公众号发文介绍，其生图团队在 9 月 10 日发布了新研究 SRPO，主要提供文生图模型的强化算法，解决开源文生图模型 Flux 的皮肤质感“过油”问题，让人像真实感“提升 3 倍”。

腾讯网

腾讯最新开源太牛了，AI一键去油、告别塑料感！登顶Hugging Face模型榜

智东西（公众号：zhidxcom）作者 | 陈骏达编辑 | 心缘那些画风“油腻”的AI生图，终于有救了？智东西9月16日报道，腾讯近期开源势头太猛了，最新发布的图像模型算法SRPO登上Hugging ...

21 小时

硅谷大力押注“环境”技术，用于训练AI智能体

其中一项技术便是精心模拟 “工作空间”，让智能体在其中接受多步骤任务训练 —— 这种 “工作空间” 被称为强化学习（reinforcement learning，简称 RL）环境。正如带标签的数据集推动了上一波 AI ...

1 天

加州大学河滨分校研究人员发现解决AI模型安全性弱化问题的新方法 ...

加州大学河滨分校（University of California, Riverside, UCR）的研究人员正在着手解决开源人工智能（Artificial Intelligence, AI）模型在适应小型设备时安全性降低的问题。当这些AI系统被精简以在手机、汽车或其他低功耗硬件上高效运行时，它们可能会失去旨在阻止其产生攻击性或危险内容的安全措施。

腾讯网

传说中的GPT-5绝招——通用验证器，是怎么炼成的？

在过去相当长的一段时间内，强化学习是否能带来推理能力引发了诸多讨论。在多篇论文的累积下，学界逐渐形成了一种共识，即RL更多的只是在做一个搜索剪枝的功能，让采样更有效率，其输出的正确答案，并未超越预训练模型本身的能力。

5 天

Meta超级智能实验室新论文陷争议！被指忽略大量前人研究

此外，与传统对抗训练不同，LSP让单个语言模型同时扮演“挑战者”和“解决者”两个角色，研究人员给模型设计了一个特殊的“挑战者提示”（Challenger ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果