资讯

他眼看着最有才华的同事一个个离开RL研究领域,被雇去研究LLM。这很难去责怪他们。做RL太糟了。那是艰苦、残酷的工作,对抗一套似乎专门设计来阻碍真正进步。