资讯
AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human ...
来自南洋理工大学和TikTok的研究人员,在2025年发布了一篇名为《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》的论文,为解决 大语言模型(LLM) 在复杂任务中,尤其是多轮工具调用场景下的不稳定问题,提供了新的思路。该研究提出的 SimpleTIR ...
这篇论文是DeepSeek-AI团队发表的,标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。 它主要讲了如何通过强化学习(Reinforcement Learning, ...
Baidu's Wenxin large model X1.1 has officially launched, achieving significant breakthroughs in factual accuracy, instruction execution capabilities, and intelligent agent interaction performance. The ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果