编辑:KingHZ
离开OpenAI,只是为了meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往!
硅谷人才争夺战,火热升级!
过去,是OpenAI从谷歌等公司吸引人才;现在,meta直接砸钱抢人。
顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!
思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到meta。
在AI领域,Jason Wei非常高产。
根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。
离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开
意外的是,这些灵感都来自强化学习!
RL之人生启示
天生我材必有用
过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。
RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。
当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。
一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。
人生也一样。
我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。
研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。
强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。
他举两个他自己更享受、却相对小众的习惯:
读大量原始数据。
做消融实验,把系统拆开看每个部件的独立作用。
有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。
今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。
更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。
所以总结一下:模仿确实重要,而且是起步的必经之路。但一旦你站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥你独有的优势与短板
相关文章
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读
2025-07-1821阅读