资讯

过去两个月里,来自清华大学和上海人工智能实验室等的研究者们组织并总结了推理模型的最新 RL 研究,形成了一份非常全面的调查综述,回顾最新进展,讨论面临的问题,并展望未来的发展方向。 RL 在推动 LLM ...
在强化学习(Reinforcement Learning, RL)后训练语言模型的语境中,"顿悟时刻"特指模型偶然发现高质量解法的关键突破。当一个智能体获得"顿悟时刻"后,这一发现能够通过群体传播,从而提升整体性能。在ReasoningGYM测试环境中,这些"顿悟"表现为模型突然掌握特定任务(如base_conversion或propositional_logic)的正确解法,而SAPO的魔力在于 ...
如果说“幻觉”是AI的癌症,那么今天,我们可能找到了第一种有效的靶向药。而且,它不是来自谷歌、OpenAI或者任何一个千亿美金的实验室。它来自中国山东的两个14岁少年,和一台2019年的MacBook Pro。
2025年9月12日,Inclusion外滩大会。在由36氪CEO冯大刚主持的圆桌论坛“AI应用落地首战:智能体时代是否降临”上,几名头部机构的投资人进行了对话。 当冯大刚抛出第一个问题:什么造就了智能体的爆发?投资人之间最大的分野,就出现了。