资讯

AI 对齐(AI alignment)是目前大模型训练与优化过程中不可或缺的环节,目前广泛使用的方法包括基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human ...
在最新的一篇论文中,清华大学和上海人工智能实验室提出了一种新方法 —— 测试时强化学习(Test-Time Reinforcement Learning,TTRL),该方法能够在无标注数据上对 LLM 进行强化学习训练。 在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型 ...
本项目为本人2024.12在某基金量化部门实习时的所完成,和公司达成一致后开源代码. 本项目基于论文 《Deep Reinforcement Learning for Automated Stock Trading: An Ensemble Strategy》,该论文发表于 2020 年 ACM 国际金融人工智能会议(ICAIF 2020)。论文提出了一种集成策略,将 Proximal ...
DeepSeek-R1是中国公司推出的突破性推理模型 DeepSeekAI Lab。该模型为开源人工智能的推理能力树立了新的标杆。如随附的 研究报告DeepSeek-R1 从 DeepSeek 的 v3 基础模型演化而来,利用强化学习 (RL) 以前所未有的准确度解决复杂的推理任务,例如高级数学和逻辑。
The Machine Learning Area at Microsoft Research Asia pushes the frontier of machine learning from the perspectives of theory, algorithms, and applications. Our research interests cover deep learning, ...
强化学习教父 Richard Sutton 的经典教材《Reinforcement Learning:An Introduction》第二版公布啦。本书分为三大部分,共十七章,机器之心对其简介和框架做了扼要介绍,并附上了全书目录、课程代码与资料。下载《强化学习》PDF 请点击文末「阅读原文」。 强化学习教父 ...