hacking - 搜索 News

资讯

2 小时

刚刚，DeepSeek登上Nature封面！梁文锋带队回应质疑，R1训练真29.4万美金

DeepSeek荣登Nature封面，实至名归！今年1月，梁文锋带队R1新作，开创了AI推理新范式——纯粹RL就能激发LLM无限推理能力。Nature还特发一篇评论文章，对其大加赞赏。

46 分钟

DeepSeek登上Nature封面，梁文锋带队回应质疑，R1训练真29.4万美金

经过多轮炼丹，DeepSeek-R1不仅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和用户偏好的基准上，性能提升了17%-25%，而且还在数学、编程等高难度推理任务上保持了顶尖水准。

13 小时

给大模型生图“去油”，腾讯混元新研究 SRPO 公布

IT之家 9 月 17 日消息，腾讯混元今晚通过官方公众号发文介绍，其生图团队在 9 月 10 日发布了新研究 SRPO，主要提供文生图模型的强化算法，解决开源文生图模型 Flux 的皮肤质感“过油”问题，让人像真实感“提升 3 倍”。

12 小时

腾讯最新开源太牛了，AI一键去油、告别塑料感！登顶Hugging Face模型榜

智东西9月16日报道，腾讯近期开源势头太猛了，最新发布的图像模型算法SRPO 登上Hugging Face趋势榜首，并在趋势榜前3占2。 SRPO由腾讯混元生图团队联合香港中文大学（深圳）、清华大学联合开发，9月13日开源，已发布完整训练代码及技巧 ...

1 天

硅谷大力押注“环境”技术，用于训练AI智能体

其中一项技术便是精心模拟 “工作空间”，让智能体在其中接受多步骤任务训练 —— 这种 “工作空间” 被称为强化学习（reinforcement learning，简称 RL）环境。正如带标签的数据集推动了上一波 AI ...

2 天

加州大学河滨分校研究人员发现解决AI模型安全性弱化问题的新方法 ...

加州大学河滨分校（University of California, Riverside, UCR）的研究人员正在着手解决开源人工智能（Artificial Intelligence, AI）模型在适应小型设备时安全性降低的问题。当这些AI系统被精简以在手机、汽车或其他低功耗硬件上高效运行时，它们可能会失去旨在阻止其产生攻击性或危险内容的安全措施。

腾讯网

传说中的GPT-5绝招——通用验证器，是怎么炼成的？

在过去相当长的一段时间内，强化学习是否能带来推理能力引发了诸多讨论。在多篇论文的累积下，学界逐渐形成了一种共识，即RL更多的只是在做一个搜索剪枝的功能，让采样更有效率，其输出的正确答案，并未超越预训练模型本身的能力。

腾讯网

仅14B参数逆袭DeepSeek-R1-671B！微软开源AI Agent模型，510步RL达到数学 ...

测试时扩展推动了复杂推理领域的重大进展，DeepSeek-R1、Gemini-2.5等领先模型表明，扩展思维链，本质上"更长时间地思考"能显著提升性能，尤其当通过RLVR优化时。然而，对于容易产生微妙中间错误或需要创造性思维转变的难题，长思维链仍存在 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果