重磅!DeepSeek R1论文经过同行评议登上Nature封面,梁文锋作为通讯作者再次创造历史

资讯 » 新科技 2025-09-18


DeepSeek R1 论文《DeepSeek-R1 incentivizes reasoning in LLMs
through reinforcement learning》登上了nature 封面,梁文锋是通讯作者,这是首个经过同行评议的具有全球影响力的LLM


这篇论文在今年2月份提交,今天终于见刊了


Nature 今天这篇论文更新了今年一月发布的预印本,该预印本描述了DeepSeek如何增强一个标准的大语言模型(LLM)来处理推理任务。其补充材料首次详细披露了R1的训练成本:仅相当于29.4万美元。R1所基于的基础LLM花费了约600万美元,这笔费用是在此基础上的额外成本,但总金额仍远低于外界猜测的竞争对手模型数千万美元的成本。R1主要使用英伟达的H800芯片进行训练


截至目前,R1是AI社区平台Hugging Face上最受欢迎的同类模型,下载量已达1090万次

严格的审查

R1被认为是首个经历同行评审过程的重要LLM。“这是一个非常值得欢迎的先例,”《自然》论文的审稿人之一、Hugging Face的机器学习工程师Lewis Tunstall说。“如果我们没有这种将大部分过程公之于众的规范,就很难评估这些系统是否会带来风险。”

为回应同行评审的意见,DeepSeek团队减少了描述中的拟人化表述,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历严格的同行评审过程,无疑有助于验证模型的有效性和实用性,”俄亥俄州立大学哥伦布分校的AI研究员Huan Sun说。“其他公司也应该这样做。”

DeepSeek的主要创新在于,使用了一种被称为“纯粹强化学习”的自动化试错方法来创建R1。该过程通过奖励模型得出正确答案,而非教它遵循人类挑选的推理示例。模型正是通过这种方式学会了自身的类推理策略,例如如何在不遵循人类预设策略的情况下验证自己的演算过程。为提高效率,模型还使用估算值来为自己的尝试打分,而不是使用一个独立的算法来完成这项工作,这项技术被称为“组相对策略优化”(group relative policy optimization)

到目前为止,2025年几乎所有在LLM中进行强化学习的研究,都可能或多或少地受到了R1的启发

训练技术

今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek使用了OpenAI模型的输出来训练R1,这种方法可以在使用更少资源的情况下,加速提升模型的能力

在与审稿人的交流中,DeepSeek研究人员声明,R1并非通过复制OpenAI模型生成的推理示例也就是所谓的蒸馏来学习的,和大多数其他LLM一样,R1的基础模型是在网络上训练的

Sun表示,这一反驳“与我们在任何出版物中能看到的(声明)一样具有说服力”。自然审稿人Tunstall补充说,尽管他不能百分之百确定R1没有用OpenAI的示例进行训练,但其他实验室的复现尝试表明,DeepSeek的推理配方已经足够好,无需这样做。他说:“我认为现在的证据已经相当清楚,仅使用纯粹强化学习就能获得非常高的性能。”

Sun表示,对研究人员来说,R1仍然非常有竞争力。在一个名为ScienceAgentBench的挑战中,要求模型完成分析和可视化数据等科学任务。Sun和他的同事发现,虽然R1的准确率不是第一,但在平衡能力与成本方面,它是表现最好的模型之一

自然审稿人Tunstall说,其他研究人员现在正尝试应用创建R1所使用的方法,来提升现有LLM的类推理能力,并将其扩展到数学和编程以外的领域。他补充道,从这个意义上说,R1“引发了一场革命”。

参考:

https://www.nature.com/articles/d41586-025-03015-6?utm_source=x&utm_medium=social&utm_campaign=nature&linkId=16828397



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。