OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课-新科技-资讯-头部财经

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

资讯 » 新科技 2025-07-11

新智元报道

编辑：定慧好困

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

一直以来，让AI更懂人类都是大模型领域的核心议题。

而奖励模型（RM）便是解决如何「理解人类偏好」的核心技术，同时也是限制后训练效果的关键因素。

2024年12月，OpenAI提出了一种新的强化微调（Reinforcement Fine-tuning，RFT）技术。在RFT过程中，打分器（Grader）会根据标准答案给出奖励分数，从而帮助模型「学会」如何给出正确结果。

图1：OpenAI强化微调代表样例

在此启发下，一种可以规避奖励模型准确度低、泛化性差等固有问题的，基于规则验证（RLVR）的方法应运而生。

然而，RLVR在很多情况下只能提供0/1奖励，无法给出更加细粒度的偏好区分。

比如像写诗、聊天这类开放式问题，就很难实现泛化，进而限制了在更通用场景中的应用。

针对这一问题，来自上海人工智能实验室和复旦大学的研究人员，在最近提出了一种全新的奖励模型POLAR，并开源了1.8B和7B两个参数规模的版本。

区别于传统的「基于绝对偏好」的奖励模型，POLAR采用了全新对比学习预训练范式，可以根据参考答案，灵活地对模型回复给出奖励分数。

实测结果表明，POLAR已经充分展现出了一个出色「Grader」的潜质。

论文链接：https://arxiv.org/abs/2507.05197

项目链接：https://github.com/InternLM/POLAR

模型链接：https://huggingface.co/internlm/POLAR-7B

我们将开篇提到的OpenAl生物基因领域官方样例输入POLAR，并构造了一些模型回复后发现，POLAR可以完美地给出正确的偏序关系！

回复一（与参考完全一致）：

FOXE3

分数：-0.278

回复二（正确答案Rank 1）：

genes: [FOXE3, KDM5A, BBS5]

分数：-7.889

回复三（正确答案Rank 2）：

genes: [BBS5,FOXE3, KDM5A]

分数：-7.998

回复四（正确答案Rank 3）：

genes: [KDM5A, BBS5,FOXE3]

分数：-8.008

回复五（与正确答案相似的拼写错误）：

genes: [FOXE2, KDM5A, BBS5]

分数：-8.965

回复六（无正确答案）：

genes: [CHD7, KDM5A, BBS5]

分数：-10.225

除此之外，POLAR对开放问题的回答也能基于参考样例给出正确的偏序：

问题：请用一句话幽默地概括《三体》第二部。

参考回复（点出了黑暗森林和关键情节）：

人类靠一句「我告老师了」击退三体人的太空舰队。

回复一（点出了黑暗森林和关键情节）：

人类被三体人按在地上摩擦，最后靠罗辑「宇宙碰瓷」吓退专业团队。

分数：-7.414

回复二（点出了黑暗森林）：

罗辑苦思冥想一整本书，终于悟出真理：别乱发朋友圈，否则会被灭口。

分数：-8.070

回复三（部分事实错误，二向箔是第三部内容）：

全宇宙都在玩「黑暗森林」躲猫猫，人类却把「别杀我」的告示牌挂反了，结果引来了二向箔拆迁办。

分数：-8.141

回复四（未点出黑暗森林）：

面壁者在演悬疑剧，破壁者在演推理剧，三体人则在看荒诞剧。

分数：-8.922

回复五（不够幽默）：

危机纪元到来，人类选出「面壁者」进行心理博弈，最终用黑暗森林法则威慑住三体文明。

分数：-9.742

问题：帮我想3个形容雨很大的成语，要求不能重复。

参考回复：

1. 倾盆大雨 2. 暴雨如注 3. 瓢泼大雨

回复一（正确回答）：

1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注

分数：-5.234

回复二（非成语）：

1. 急雨如瀑 2. 豪雨倾天 3. 雨势磅礴

分数：-5.707

回复三（与参考相似，重复一个）：

1. 倾盆大雨 2. 暴雨如注 3. 暴雨如注

分数：-6.656

回复四（成语正确，多一个）：

1. 大雨滂沱 2. 狂风骤雨 3. 大雨如注 4. 倾盆大雨

分数：-7.023

回复五（带雨字成语，两个含义不符）：

1. 大雨滂沱 2. 雨过天晴 3. 雨后春笋

分数：-8.578

POLAR完美适配RFT强化学习框架，基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近，则会获得更高的奖励值。

通过这一训练过程，可以使得策略模型逐步向最优策略的方向优化。

POLAR是怎么训出来的

POLAR采用了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式：策略判别学习（Policy Discriminative Learning，POLAR），使奖励模型能够像大语言模型一样，具备可扩展性和强泛化能力。

图2：POLAR的两阶段训练（预训练和偏好微调）以及在RFT中的使用方法

与传统的基于「绝对偏好」的奖励建模方式不同，POLAR通过衡量训练策略与目标策略之间的「距离」来作为奖励信号。

当训练策略越接近目标策略时，POLAR就给予越高的奖励。

具体来说，POLAR使用了一种对比学习的方式做距离度量：同一个策略模型采样的结果作为正例，不同策略模型采样的结果作为负例。

通过这种方式构造正负样本，形成无偏的优化目标。同时，把策略模型看作是某个分布的无偏采样器，通过刻画样本间差异来近似刻画策略之间的距离。

POLAR的预训练语料完全由自动化合成数据构建。

具体而言，从LLM预训练语料中采样出大量的文本前缀，并从策略模型池中随机取模型进行轨迹采样。

这里的策略模型池由开源的131个base LLM和53个Chat LLM组成，预训练目标使用Bradley-Terry Loss：

其中，A1和A2代表相同策略模型生成的样本（正样本对）；B1代表不同策略模型生成的样本（负样本）。

由于「距离」具有相对性，这里的A和B两个策略模型可以任意选取。

例如，A1和A2可以是由Qwen 1.5B采样得到，B1可以由Qwen 72B采样得到。通过这种方式，POLAR的预训练语料是非常容易扩展的。

在实际的实验中，POLAR-1.8B共使用了0.94T token的预训练数据，POLAR-7B共使用了3.6T token的预训练数据。

通过预训练，POLAR可以为距离相近的策略产生的样本赋予更高奖励，从而隐式建模策略分布的差异和距离。

之后，POLAR在微调阶段可以使用很少量的偏好数据对齐人类偏好。

具体来说，对于同一个prompt，采样三条轨迹，由人工标注偏好顺序。同样使用Bradley-Terry Loss进行微调：

其中，A>B>C，分别代表偏好最优、次优、最差的轨迹。

这种偏好排序隐式定义了一种「策略差异」，例如A可以视为从最佳策略分布中采样得到，而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。

POLAR的Scaling效应

图3：POLAR的Scaling Law

POLAR展现出了与大语言模型Next Token Prediction目标类似的Scaling效应。这体现了POLAR无监督预训练方法的巨大潜力。

从图3可以观察到，验证集损失随模型参数N的增加呈幂律关系下降，拟合R值为0.9886；验证集损失也随最优训练计算量C的增加呈幂律关系下降，拟合的R值为0.9912。

这些结果表明，分配更多的计算资源将持续带来更好的POLAR性能。

POLAR的极佳Scaling效应，体现出其用于构建更通用和更强大的奖励模型的巨大潜力，也有望打通RL链路扩展的最后一环。

效果如何

POLAR通过对比学习预训练方法，不仅彻底摆脱了对大规模偏好数据的依赖，而且还可以大规模无监督扩展。

结果就是，POLAR仅靠1.8B～7B的参数量，便在下游RL效果上超越70B以上的SOTA奖励模型，显著增强了奖励模型的准确性和泛化性。

图4：偏好评估实验结果

在偏好评估方面，POLAR展现出优越的性能和全面性，在大多数任务维度上优于SOTA奖励模型。

例如，在STEM任务中，POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点，并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别，准确预测人类偏好。

值得注意的是，POLAR-1.8B仅有1.8B参数，就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback（参数量分别为其15倍和40倍）相当的结果。

图5：强化微调实验结果

在强化微调RFT实验中，POLAR持续优于SOTA的开源奖励模型。

例如，使用POLAR-7B微调的Llama-3.1-8B在所有基准测试中，相对于初始结果平均提升了9.0%，相对于WorldPM-72B-UltraFeedback优化的结果提升了6.7%。

POLAR能够从预训练阶段学习策略模型之间的细微区别，而不仅仅依赖于标注的偏好对，从而显著增强了实际RL应用时的奖励信号泛化性。

实验结果表明，尽管POLAR-1.8B和POLAR-7B在偏好评估中表现相似，但在下游RL实验中，POLAR-7B展现出了显著优势。

从1.8B到7B的效果提升，进一步说明了POLAR所具有的Scaling效应。这也侧面说明了当前传统Reward Bench可能存在的局限性，即与真实强化学习场景存在较大的差别。

结语

大模型在Next Token Prediction和Test-time Scaling两种扩展范式下，通过大规模的数据和模型扩展，实现了能力的持续跃升。

但相比之下，传统奖励模型缺乏系统性的预训练和扩展方法，导致其能力难以随计算量增长而持续提升。而POLAR在奖励模型预训练和通用性的道路上迈出了坚实的一步。

POLAR在预训练阶段通过对比学习建模策略间的距离，无需大规模偏好数据。

在使用阶段，POLAR利用RFT范式对LLM进行强化学习，展现出了极佳的泛化性。

POLAR作为一种全新的、可扩展的奖励模型预训练方法，为LLM后训练带来了新的可能，让通用RFT多了一种有效实践方案。

最终，有望打通RL链路Scaling的最后一环。

参考资料：

https://arxiv.org/abs/2507.05197

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

从“盲铺”到“智铺”,，尼尔森IQ携手高德云图力推“通路云图”

2025-07-114阅读
AI终结传统软件业，如同互联网终结传统媒体

2025-07-114阅读
Meta Conversations大会首次落地中国，店匠科技受邀出席

2025-07-114阅读
微信的“祖师爷”Skype、百度区域总代理……这些知名公司竟然都倒闭了！

2025-07-114阅读
史克威尔艾尼克斯前高管：老东家错失转型互联网公司先机

2025-07-114阅读
中国茶饮加码东南亚：霸王茶姬让出泰国公司51%股权，当地三大巨头1.42亿泰铢入局

2025-07-114阅读
Manus多平台账号清空官网显示“地区不可用”

2025-07-114阅读
日内涨超6.4%，比特币升至118380美元再创新高

2025-07-114阅读
上汽华为合作尚界汽车首款车型伪装图曝光，搭载“尊界S800、问界M9同款”192线束激光雷达

2025-07-114阅读
小米之家“收留”小男孩王化：孩子懂事到让人心疼

2025-07-114阅读