Reinforcement Learning

资讯

研究人员提出AI对齐新方法，通过“交互式分解”改善人类提供反馈过程

AI 对齐（AI alignment）是目前大模型训练与优化过程中不可或缺的环节，目前广泛使用的方法包括基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human ...

5 天

SimpleTIR：南洋理工&TikTok 解锁大模型多轮工具调用稳定性，LLM 迎新 ...

来自南洋理工大学和TikTok的研究人员，在2025年发布了一篇名为《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》的论文，为解决大语言模型（LLM）在复杂任务中，尤其是多轮工具调用场景下的不稳定问题，提供了新的思路。该研究提出的 SimpleTIR ...

腾讯网

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。它主要讲了如何通过强化学习（Reinforcement Learning, ...

7 天

Baidu Wenxin X1.1 Upgrade Launched! Impressive Performance in Logical Reasoning, Fact ...

Baidu's Wenxin large model X1.1 has officially launched, achieving significant breakthroughs in factual accuracy, instruction execution capabilities, and intelligent agent interaction performance. The ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果

资讯

研究人员提出AI对齐新方法，通过“交互式分解”改善人类提供反馈过程

SimpleTIR：南洋理工&TikTok 解锁大模型多轮工具调用稳定性，**LLM** 迎新 ...

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

Baidu Wenxin X1.1 Upgrade Launched! Impressive Performance in Logical Reasoning, Fact ...

SimpleTIR：南洋理工&TikTok 解锁大模型多轮工具调用稳定性，LLM 迎新 ...