Reinforcement Learning

资讯

8 天

研究人员提出AI对齐新方法，通过交互式分解改善人类提供反馈过程

AI 对齐（AI alignment）是目前大模型训练与优化过程中不可或缺的环节，目前广泛使用的方法包括基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human ...

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

这篇论文是DeepSeek-AI团队发表的，标题是《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。它主要讲了如何通过强化学习（Reinforcement Learning, ...

6 天

Baidu Wenxin X1.1 Upgrade Launched! Impressive Performance in Logical Reasoning, Fact ...

Baidu's Wenxin large model X1.1 has officially launched, achieving significant breakthroughs in factual accuracy, instruction execution capabilities, and intelligent agent interaction performance. The ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

研究人员提出AI对齐新方法，通过交互式分解改善人类提供反馈过程

阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？

Baidu Wenxin X1.1 Upgrade Launched! Impressive Performance in Logical Reasoning, Fact ...

今日热点