资讯
来自南洋理工大学和TikTok的研究人员,在2025年发布了一篇名为《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》的论文,为解决 大语言模型(LLM) 在复杂任务中,尤其是多轮工具调用场景下的不稳定问题,提供了新的思路。该研究提出的 SimpleTIR ...
这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 它主要讲了如何通过强化学习(Reinforcement Learning, ...
AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果