![]()
智东西
作者 江宇
编辑 冰倩
智东西1月20日报道,ChatGPT背后的一位中国工程师——OpenAI核心贡献者翁家翌,日前在AI播客WhynotTV Podcast接受专访,他首次详尽讲述了自己从清华少年到OpenAI infra骨干的经历。
![]()
▲图源自翁家翌GitHub主页
作为强化学习与后训练(Post-Training)系统的关键工程师,翁家翌深度参与了GPT-3.5、GPT-4、GPT-5等核心模型的训练,其搭建的infra系统已成为OpenAI内部大模型训练与迭代的基础底座,也是ChatGPT持续进化的关键支撑。
在这场长达两个多小时的对谈中,翁家翌披露了OpenAI内部Post-Training系统的构建逻辑,也解释了OpenAI为何能持续产出爆款模型。
他还分享了他对AGI定义、OpenAI不“open”批评以及内部人才流动加剧等现象的第一手观察。
面对DeepSeek、TikTok、英伟达、谷歌等科技巨头抛来的橄榄枝,他为何最终选择了OpenAI?
谈及职业方向,他又为何自称“卖铲子里最面向客户的那位”,并立下目标“我要最大化我在OpenAI Blog上出现的次数”?
这场对谈,给出了答案。
一、“卖铲子”到主导Post-Training,他是OpenAI模型背后的基础构建者
在OpenAI内部,几乎每一个大型模型的发布名单里,都能看到翁家翌的名字,他主导搭建了OpenAI强化学习后训练(Post-Training)阶段的核心基础设施。
“每发一个大的release,每发一个大的模型,我的名字就得放上去。”他说,“因为大家都在用整个Post-Training infra去训练RHF的模型。”
他说自己“是卖铲子里最面向客户的那位”,因为强化学习模块处在整个基础设施栈的最顶端。他还给自己的职业生涯设定过一个指标:“我要最大化我在OpenAI Blog上出现的次数。”
面对年轻人,他的建议仍是:持续投入工程建设,而不是学术研究。他不避讳地说:“长远来看,我还是觉得现代学术界应该要被重构。”在他看来,如果目标是进入工业界,最重要的是匹配真实的工作需求,“AI Lab最缺的其实就是Infra人才,infra是个无底洞。”
学术界研究往往陷在一些困境里,如Atari、MoJoCo等任务上过度拟合,并不能转化为实际问题的解决能力。他谈及,“我在2022年8月就意识到这个问题,所以逐步停止了天授的开发,转向在OpenAI内部构建更有意义的RL Infra。”
而在OpenAI内,他目睹了一系列“半偶然半必然”的变革。加入之初,他参与的就是WebGPT后续项目,通过强化学习让模型更好地与用户交互。他负责构建的RL训练系统在ChatGPT爆发式上线之前,已成为公司内部主力使用的infra之一。
发布当天,OpenAI服务器数次被挤爆,他形容这种“自发涌现的需求”就像自己做tuixue online时遇到的情形,“说明这确实是一个值得投入精力的方向”。
被问到OpenAI为何能做出如此爆款,翁家翌归结于两个因素:一是单位时间迭代效率足够高,二是领导层真正懂技术。
OpenAI在引入了几位前Google工程负责人之后(如Barret Zoph、Liam Fedus),团队开始系统性提升工程效率,单位时间的迭代次数和成功率是正比的。
他强调,“RL本质上就是trial-and-error(试错)。你试得越快越多,成功就越近。”
OpenAI的领导层也保持对细节的强关注。Greg Brockman(联合创始人兼总裁)几乎参与过公司所有基础设施模块,而Sam Altman(联合创始人兼CEO)则通过研究助理及时了解公司内部进展。他认为这种技术细节的敏感性和上下信息通畅正是OpenAI创新持续不断的原因。
翁家翌称,“管公司就像管代码库,一旦不一致,整个系统就会像拼装的人类,身子动了,脚没动。”
二、他为ChatGPT模型搭建后训练系统,也在重构下一代Infra
ChatGPT 3.5正式发布之前,OpenAI内部其实已开始在GPT-4上验证强化学习后训练(RLHF)流程的可行性。
翁家翌回忆,当时他负责的正是RLHF训练Pipeline的整体搭建:旧的infra是跑不动的,我在新infra上调通了第一版,先在4上做通,再迁回3.5。这套Post-Training系统随后被用于整个ChatGPT系列模型的训练中。
这并不是一条“拿来即用”的流水线。他谈及,OpenAI内部并没有现成可复用的RLHF基线,很多关键流程都需要从头构建。
真正的挑战,是模型效果的衡量标准并不清晰。“你训练出很多个checkpoint(检查点),但你不知道哪个是真的更好。”用人类反馈奖励评估时,模型可能一开始奖励信号很高,之后却因过度拟合(hacking)而性能下降。
最终,团队只能依赖“human-in-the-loop(人机协同)”的评估流程,即让内部员工亲自交互测试、打分投票,选出效果最佳的版本。
从技术结构上看,这套Post-Training系统的难度远高于他曾经开发的“天授”框架。toy task(验证算法的小规模仿真环境)的瓶颈在环境,而大模型的瓶颈在模型本身。
环境是一个prompt,计算只要几微秒,但模型训练和采样则是几百甚至上千秒。系统工程的复杂性在于吞吐与扩展的平衡,以及对GPU资源的极限压榨。
而他正是那个站在强化学习、系统工程与大语言模型交叉点的人。他不仅要懂RL本身的逻辑,也得理解分布式系统、语言模型的推理方式以及底层架构。
工作强度一度让他因头痛被送进急诊。“基本是早上醒来开始debug,写到晚上睡觉,一周六天。”自那以后,他强制自己每周跑两次3000米,恢复体力。翁家翌回忆称,“我之前在清华的时候,上体育课是就是3000米不及格,然后完全不会跑3000米的。”
同时,翁家翌也正在参与OpenAI下一代RL Infra的重构工作。“旧架构已经三年多了,堆积的问题其实已经很多了。”OpenAI要推倒重来,目标是清理技术债,帮助研究员以更高迭代效率推进实。
三、他在福建省队拿下“唯一一块铜牌”,叩开清华大门
面对“你小时候是个什么样的小孩”的问题,翁家翌从奥数讲起。他在数学上展现出超常的直觉能力,常常别人还在计算时他就已经写完了答案。
尽管解题速度快,他却并不认为自己是学得快的人,反而觉得自己在理解新知识时总是比别人慢,需要付出两到三倍的时间。同时,他也具备一种策略意识:既然慢,就要提前学。
他在初中就主动找数学老师问高中课程内容,初二就完成了大部分高中数学学习,初三开始学微积分。翁家翌坦言,“我想投资自己的未来。”
进入高中后,他因为升学压力开始参加信息学竞赛OI(Olympiad in Informatics),希望以此作为进入顶尖大学的路径。他说,对于非北京的学生而言,直接考入清华北大“几乎难如登天”。
他曾在数学竞赛上小有成绩,但因为学校资源有限、自己准备不充分,最终选择放弃数学竞赛,转而专注于OI。
他在福建省内的选拔中一路拼到省队,在高二那年凭借一道最小二分覆盖题得到了全场最高分,顺利拿到清华“降60分”录取资格。但他也坦言,这是一次“险胜”:“那年福建省队只有一个铜牌,就是我。”
而这一路的训练,也塑造了他的习惯和思维方式。他回忆高三备考期间仍“偷偷写代码”,甚至在没有编译器的iPad上直接键盘敲代码,这样的经历训练了自己对程序结构的完整认知与快速定位bug的能力。
他尤其沉迷于“常数优化”这种在算法竞赛中优化时间和代码长度的工程挑战,尽管他说这可能“没什么用”,但“真的很有意思”。他总结说,OI让他意识到,“我真的可以从里面获得快乐”。
四、他在清华开源作业、修校园网Bug,误打误撞走进了强化学习
进入高校后,如果要说清华生活里最“出圈”的事,是翁家翌给把所有的作业都开源了。
他收集了前几届流传下来的“上古作业”和课程材料,在征得无版权部分的确认后,悉数上传到了GitHub。他说,在清华,信息差往往被当作一种生存资源,但“我觉得每个人都应该平等地拥有这些信息”。
他笑称,“随便我们抓一个计算机的学弟,问问你认不认识捐楼的人,哪怕他把名字放在楼上面,你认不认识他?不认识。但你们认识我,因为毕竟大家都看我作业活的。”他还打趣说,“比捐楼还有用。”
除了“火遍校园”的作业库,翁家翌在大二也开启了科研之路。他误打误撞报了清华计算机系的“学术新兴计划”。当时他对科研方向还一无所知,只是模糊觉得“图像的东西挺有意思”,于是盲选了强化学习,结果本以为是搞图像的,后来发现其实是打游戏的。
他其实一直对多个方向有浓厚兴趣。除了AI,他也喜欢图形学和网络安全。在大学时,他曾和学长一起发现并修复了清华网的漏洞,使得本应收费十元的成绩单可以免费甚至一分钱下载。他修好Bug之后,还反馈给了教务部门。
图形学一度是他的最爱。他在图形学课程中投入了大量时间与情感,完成了一个几乎没有人敢尝试的“16K高清图渲染”大作业,并发明了一种加速迭代收敛的新算法,最终拿到了全班仅有的两个A+之一。
但最终,他还是放弃了图形学。“搞科研不能脚踏两条船”,他做了取舍,选择了继续走强化学习的路。
五、那些看似“折腾”的科研尝试,成了他走向OpenAI的“前传”
自此,翁家翌开启了他的第一个科研项目:在一个上世纪90年代的游戏中训练神经网络,让智能体在固定地图里完成从出生点到终点的任务,包括杀怪、捡血包、避障、通关。
最终,他用强化学习方法拿下冠军。
尽管结果不错,他却坦言并不享受整个过程。“这个环境太单一了,要疯狂地用技巧防止训练崩掉。即使不崩,你也不知道怎么调参才能保持。”他说,“这种感觉就像‘炼丹’,这比CV(计算机视觉)调参难十倍、一百倍,全靠heuristics(启发式方法)。”
也正因此,他在大四有意识地将重心转向工具层面,尝试搭建一套面向强化学习的小型基础设施库。“我非常擅长做软件工程的事,可以重构代码、优化用户体验。”他说,“但至于怎么调,那不是我想碰的东西。”
大三暑假,他曾前往蒙特利尔的Mila研究所交流实习。彼时他投出大量套磁信却迟迟没有回应,最终在清华导师的帮助下,才联系上实习机会。他回忆,那年是2019年夏天,正好是Mila创始人、本体研究所负责人Yoshua Bengio荣获图灵奖的几个月后,“好在我是提前联系的,不然估计就进不去了。”尽管进入的是Bengio所在的实验室,但他直接跟随的是一位Postdoc,任务是尝试做一个类似MoE(混合专家模型)的项目。
那是他第一次接触Transformer和语言建模。他花了很长时间上手,最终也只是“撮了一个东西出来”,没什么效果。他回忆:“要让这种东西work,首先得有算力、有工程能力,还要能scale up。当时就我一个人几块卡,哪怕方向对,也搞不出来。”
“NLP的任务太分散了。”他也观察到,当时很多人在尝试把RL用于训练语言模型,但Transformer容易在强化学习中崩塌,没人知道怎么让它不崩。
后来人们才发现,要让它work,环境必须“纯”,比如纯文本输入。
他坦言,当时对这些方向并没有清晰认知,只觉得处处受限。“算力不够,认知也不够,哪怕有今天的理解,当时还是做不出来。”
大三暑假交流归来后,翁家翌开始准备出国深造的申请。但那段时间并不顺利。他坦言,状态其实“不太好”。
眼看身边的同学纷纷进入CMU、Stanford等名校实验室,发出ICLR、NeurIPS等会议论文,而自己“什么都没有”,落差感袭来。“当时的话,我确实是有一点失望的,其实也花了一段时间来调整自己。后面觉得我一直以来应该都是想做一些让自己与众不同的事情。”
最终,他只申请上了硕士。“当时确实有些失落”,他说在清华,哪怕是国外的PhD和Master,也会被视作天差地别。
翁家翌坦言,“我一直觉得,GPA不是唯一的评价指标。你得创造自己的评价体系。”他引用导师的标准:“计算机系的三大指标:论文、比赛、GitHub三位数以上的Star。”这句话影响了他很久,也让他意识到,除了刷成绩,还有很多“可见的价值”能让一个学生被世界看到。
本科期间,他努力在“尽可能少花时间”的前提下保持成绩刚好够用,“够用就行,多一分都不想花时间。”他会在期末前计算当前的GPA,“比如87分是B+,那我就很满意了。”
不过,面对出国这个选择,他也并非完全独立于大环境之外。那是在2019年12月,他拿到offer时正值疫情。
六、他用两个项目“做慈善”:天授与tuixue online,一炮而红
在申请季与疫情交叠的那段时间,翁家翌做了两个项目,一个叫“天授”,一个是“tuixue online”。他形容这两个项目都不是功利性的。
“我不想发paper,觉得没有意义。”翁家翌坦言。对他来说,多一篇少一篇论文并没有意义。“我申请已经够用了,比赛我也有了,GitHub三位数star也勉强算有。我更想做一个正儿八经的、能被真正用起来的项目。”
“天授”的起点,是不想再浪费时间“炼丹”。2019年底,他意识到强化学习(RL)领域的问题不在于算法本身,而在于实验平台。
他看了当时最主流的RLlib源代码,发现抽象极度复杂,几十万行代码几乎无法动手,干脆推倒重来。于是他在2020年春节假期开始自写一套RL实验平台,第一版两周就完成了。
不同于RLlib的“腐化”,天授从设计伊始就追求极致的一致性(consistency)。翁家翌认为,天授“火”的核心在于真正抓住了科研用户的需求:一套简单、好改、稳定的框架。
另一个项目“tuixue online”,则源自亲身需求。他急需一个实时爬虫工具来查询签证预约状态。“于是,我就手撸了一个轻量爬虫,不然没办法。”他说。同时,翁家翌也觉得很多人应该有这个需求,所以就开源了。
这个项目迅速传播,一开始就有一百多万点击,现在累积已经破千万。虽然最终因为美领馆升级系统而失效,他也没再维护,但这个“短命项目”完成了自己的使命。
他把这两个项目都称作“做慈善”。“完全nonprofit(非盈利),这种慈善项目让我感觉非常满足过。”
当被问及这种“对impact(影响力)的追求”是何时萌芽的,他回忆起高三时一个“灵光一现”的想法:“如果人生是场游戏,结算分数就是死后还有多少人记得你的名字。”
翁家翌称,“我觉得,你不可能对所有人都好,这个是很难做到的事情。但是,我可以尝试力所能及地对我身边的人好,做一些对大家有意义的事。”
七、加入OpenAI之前,他已彻底想清楚:要工程,不要炼丹
2020年,翁家翌远程开始了CMU的硕士课程,因疫情一年都在家上网课。也正是在这段时期,他开始准备找工作。他一开始投了18家公司,仅收到Google和AutoML(陈天奇团队)的offer。“我不想去Google,在大厂当螺丝钉,然后做一些自己不是那么喜欢的事儿。”
在此之后,他继续投递并陆续拿到更多公司offer,包括幻方量化、英伟达、TikTok,以及Facebook AI Research(FAIR),其中幻方彼时正在筹建AI Lab(后来成为DeepSeek)。
他坦言,如果没有其他选择,可能就会加入幻方做强化学习infra。但最终,他选择了OpenAI。
这时距OpenAI尚未进入大众视野,ChatGPT时刻还未来临。
他做出这个选择,更多是出于对强化学习和系统能力的认同。“当时OpenAI和DeepMind是强化学习做得最好的两个lab。”他想体验“世界最前沿的research是怎么做的”,而不是留在几个PhD手搓的小作坊式科研环境里。他想学的是工业级科研的方法论。
他最终进入了OpenAI的强化学习组,由John Schulman(OpenAI联合创始人之一)亲自招入。“是他亲自面试的我。我很感激他给了我机会。他离职那天,我难过了一整个下午,把电脑都关了。”
面试中,John Schulman只给了两个人同一道工程题目,一个是翁家翌,另一个是Codex项目的关键成员Andrey Mishchenko。“那是一道端到端的题,很开放,他给了我3小时,我两个小时就写完了,现场还修好了一个bug。”
他猜测,John看重的是他的工程能力,“Schulman说我的GitHub主页很‘漂亮’,他应该也认可我这个评价体系。”
谈及是否考虑过读PhD,翁家翌说从未认真想过。“如果想进工业界,读PhD其实是在浪费生命。”他说:“你完全可以以master为跳板,然后来凑够PhD进工业界的标准。能够让对方挑选master的你,而不是另外一个PhD。我觉得是想清楚差异化,这个是很关键的。”
PhD的训练是让你擅长讲故事、写paper、画图,而工业界要的是快速迭代和系统正确性。他说,自己的一位OpenAI同事也曾是强化学习方向的PhD,后来开发了一个很出名的RL框架。这位同事总结过一句话,让他印象深刻:“教一个researcher如何做好engineering,比教一个engineer如何做好research难得多。”
在翁家翌看来,研究的价值在于验证,而验证的关键是infrastructure。只要基础系统正确、超参合理、迭代效率高,就能快速筛选出有效想法。而“idea is cheap”,真正稀缺的是验证的效率和质量。
“每家infrastructure都有不同程度的bug,谁修的bug多,谁的模型性能就越好。”他直言不讳地说,自己没兴趣再做调参式的研究了,“我更愿意卖铲子。”
翁家翌的想法是:把infra地基打好,让别人去玩,让别人去发paper,也许还能带上挂名。
八、OpenAI还“Open”吗?从AGI定义到组织焦虑,翁家翌给出答案
在翁家翌看来,“Agent”和“强化学习的post-training”之间没有本质差别。“它们本质上是一个东西,只是中间多了几步交互。”他认为,在技术路径上,环境变化是主要区别,但并不构成新挑战。
谈及AGI的定义,他并不认同有统一标准。“OpenAI内部你抓15个人,可能有20种定义AGI的方法。”他自己的定义是:“如果它能完成80%、90%我认为有意义的任务,那它可能就是是AGI了。”
而当前他日常负责的代码上,尚无法放心交给模型修改。翁家翌称,“AI infra的数据集覆盖极低,成本太高了,目前还触及不到这块。”
在被问及是否担忧自己被AI取代时,他认为每个人往往会过度反应,“但实际上不会这样的,它是个很慢的、循序渐进的过程。”
翁家翌自称热爱开源,但也非常清楚这背后的权衡。“你没法直接把最好的模型开源,因为公司要生存。”开源与公司生存之间是不可避免的取舍,尤其在资源密集型的模型研发阶段,必须保障资本输血与商业可持续。
在他看来,OpenAI的“Open”战略并不意味着对所有同行开放,而是尽可能以低门槛的方式让普通人用上强大工具。“比如ChatGPT有免费版本,还有语音模式体验,这样可能是更有利于‘造福全人类’,而不是直接开源。你给出裸的模型权重,普通人也不知道怎么用。”
对于外界关于“OpenAI已不Open”的批评,他回应:理论上可以做到开源和社区反馈,但现实很难。你一开源,别人就立刻闭源压你,导致你融不到钱,没法继续实验。
他也坦言,如果公司资源不受限,“我当然会很开心地开源RL Infra团队这两三年的成果。
被问到OpenAI实现AGI的最大挑战,他用一个词概括:“执行。”在他看来,“只要组织能在正确方向上稳定执行,就足够了。”他坦言,“就比如说差点倒闭那次,只要别再那样就好。”
对于Sam Altman那场风波,他回忆称:“董事会对Sam的不信任投票,把他赶了出去。”但底层员工的反应是“震惊”,因为对他们来说,董事会之前对内部几乎没有透明度,“我们也不知道这个决策是怎么做的”。
他还提到,OpenAI最终支持Sam回归,是因为“纯技术出身的人并不一定能撑起整个AI公司”。“你需要一个能搞钱、搞算力、搞资源的人,不是只有很好的研究经验就行。”
他将Sam抽象成一个“identity(精神符号)”,并说:“如果你试图用AI来替代这个identity,别人对它的认同就会缺失。”
他并不避讳团队流失的问题。对于人才流动,他的态度是:“一个健康的组织,所有人都是可以被替代的。”只要有造血能力,培养新人,OpenAI就能持续运转。
但他也承认,OpenAI并非在所有关键指标上都处于全球领先,比如在infra迭代速度上。
“比如DeepSeek那波声称迭代很快,这确实让内部很多人警觉。”他提到,这也是重构一版Infra的原因,Infra的迭代是OpenAI生死线,“我们早就不做为了刷榜而做的事了。”
他还解释说,大公司结构复杂、use case(应用场景)众多,难免影响效率。相比之下,“一个初创团队集中做一个方向,斜率肯定高。”他补充道:“所有公司做大了都会变慢,看哪个‘没那么差’而已。”
他也提出一个设想:一个拥有无限上下文记忆能力的AI Agent,或许才是最合适的CEO。
现在的组织臃肿、context共享不一致,是人类无法克服的限制,但AI可以。这样的Agent未来能解决管理的核心问题,承担起决策者角色。他说:“人类的context是有限的,但AI可以。”
九、如果AI真的能预测未来,人类该不该按下暂停键
在这段对话的最后,话题转向了一个更抽象的问题:如果让AI去解决一个世界难题,翁家翌最想做的是什么。他给出的答案是如何预测未来。
他坦言,“所有的东西都是可以被预测的,所以理论上它是可以用AI解决的。”
正因为如此,他反而认为,“如果你能拿到一个能够预测未来的机器的话,那么对个人而言,其实是一个灾难,我觉得这会导致所有的价值体系的崩塌。”
他目前采取的应对方式,是“忘掉这一切”,假装不知道世界是否确定,只专注于当下的体验与选择。
他也提出了一种解释:时间或许并非线性流动。未来的我,帮助过去的我来完成某些决策。
当话题回到现实,他对创业与未来的态度并不明朗。他并不否认创业的可能性,但明确称目前还没有看到足够好的想法,也认为OpenAI依然是一个值得留下的地方。
他更偏好有真实需求的产品,正如他过去做过的“天授”和“退学online”。在他看来,“技术不重要,重要的是就是抓住需求。”
谈到更长远的未来,他并没有给自己设定明确的终点。他希望十年后的自己,能够“做当时想做的事”,有足够的资源与足够的能力。他仍然选择继续“投资未来”,让他有选择的权利。
在播客的最后,翁家翌留下了一句答案。他坦言,“我曾经一度想通了我自己想要什么,但是我其实还是没有那么想通,这个问题值得一生去思考。”
相关文章
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读
2026-01-210阅读