Reinforcement Learning

资讯

5 天

SimpleTIR：南洋理工&TikTok 解锁大模型多轮工具调用稳定性，LLM 迎新 ...

来自南洋理工大学和TikTok的研究人员，在2025年发布了一篇名为《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》的论文，为解决大语言模型（LLM）在复杂任务中，尤其是多轮工具调用场景下的不稳定问题，提供了新的思路。该研究提出的 SimpleTIR ...

腾讯网

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。它主要讲了如何通过强化学习（Reinforcement Learning, ...

10 天

研究人员提出AI对齐新方法，通过交互式分解改善人类提供反馈过程

AI 对齐（AI alignment）是目前大模型训练与优化过程中不可或缺的环节，目前广泛使用的方法包括基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

SimpleTIR：南洋理工&TikTok 解锁大模型多轮工具调用稳定性，**LLM** 迎新 ...

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

研究人员提出AI对齐新方法，通过交互式分解改善人类提供反馈过程

今日热点

SimpleTIR：南洋理工&TikTok 解锁大模型多轮工具调用稳定性，LLM 迎新 ...