资讯

本项目目标是进行关于强化学习 (Reinforcement Learning)的实验,特别是 Q-learning 与 SARSA算法的比较,以及探索在教师-学生框架 (Interactive Reinforcement Learning, IntRL)下的学习效率提升效果。 环境为 11×11 的静态网格世界 (Grid World),其中: 代理 (agent) 从随机起点出发 ...
涉及这一方法的有两篇发布于今年5月的论文。第一篇是SEALab的《无验证器强化通用推理》。它的逻辑也很简单,就是与其相信外部验证器,不如直接 用模型自身对答案的“自信度”来设定奖励。
这个仓库本来用于复现某本国内强化学习教材的案例,奈何这本书写得实在太差了,因此弃坑此书。我的书评在这里:豆瓣书评。 现在,这个仓库用于存储一些强化学习练手小项目与算法实验。具体来讲,就是不至于单独成一个 repo 的项目,但是又值得拿出来 ...
在过去相当长的一段时间内,强化学习是否能带来推理能力引发了诸多讨论。在多篇论文的累积下,学界逐渐形成了一种共识,即RL更多的只是在做一个搜索剪枝的功能,让采样更有效率,其输出的正确答案,并未超越预训练模型本身的能力。
近日,字节跳动与香港大学联合推出了名为Mini-o3的全新开源视觉推理模型,标志着多轮视觉推理技术领域的又一重大突破。与以往只能处理1-2轮对话的视觉语言模型(Visual Language Models, VLMs)不同,Mini-o3在训练期间将对话轮数限制为6轮,但在测试期间,可以将推理轮数扩展到数十轮,从而大大提高了处理视觉问题的能力。
传统的Agent,多半依赖预设的流程,像一条早已铺好的路。可一旦底层模型更新,整个系统就需要推倒重来。 Kimi采用的端到端地强化学习,走的是另一条路。它让模型在未知的问题里自由探索,不靠固定的程序,而靠数据和反馈一点点成长。
AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human ...
A:能够成功迁移到真实世界。研究团队用AgileX ...
2025年9月12日,Inclusion外滩大会。在由36氪CEO冯大刚主持的圆桌论坛“AI应用落地首战:智能体时代是否降临”上,几名头部机构的投资人进行了对话。 当冯大刚抛出第一个问题:什么造就了智能体的爆发?投资人之间最大的分野,就出现了。
在强化学习(Reinforcement Learning, RL)后训练语言模型的语境中,"顿悟时刻"特指模型偶然发现高质量解法的关键突破。当一个智能体获得"顿悟时刻"后,这一发现能够通过群体传播,从而提升整体性能。在ReasoningGYM测试环境中,这些"顿悟"表现为模型突然掌握特定任务(如base_conversion或propositional_logic)的正确解法,而SAPO的魔力在于 ...
8 月 26 日,《国务院关于深入实施“人工智能 +”行动的意见》正式发布,首次将“人工智能 +” 的重要性提高到了“促进生产力革命性跃迁和生产关系深层次变革”的高度,提出加快形成人机协同、跨界融合、共创分享的智能经济和智能社会新形态。按照十年行动路线图,新一代智能终端、智能体等应用普及率在 2027 年和 2030 年要分别超 70%和 90%,智能体经济正在迎来巨大的发展机遇。
来自加州理工学院等机构的研究人员通过强化学习开发了深度循环整形 (Deep Loop Shaping)方法,成功解决了LIGO探测器在10-30Hz低频段的控制噪声难题。该非线性最优控制技术使LIGO Livingston观测站的噪声降低超30倍,部分子频段达100倍,突破量子极限,为研究中质量黑洞合并等宇宙学现象开辟了新途径。