感谢DeepSeek：Predibase发布全球首个端到端强化微调平台并开源-新科技-资讯-头部财经

感谢DeepSeek：Predibase发布全球首个端到端强化微调平台并开源

资讯 » 新科技 2025-03-20

3月20日消息，昨日晚间，大模型训练、开发平台Predibase发布了首个端到端强化微调平台（RFT）。

Predibase表示，DeepSeek-R1的开源在全球AI领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

与传统的监督式微调相比，RFT不依赖大量的标注数据，而是通过奖励和自定义函数来完成持续地强化学习，同时支持无服务器和端到端训练方法，从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器，设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示RFT的强大，Predibase根据阿里开源的Qwen2.5-Coder-32B-instruct，微调了一个专门用于将PyTorch代码翻译为Triton的模型Predibase-T2T-32B-RFT。

与传统的监督式微调方法不同，Predibase-T2T-32B-RFT利用RFT以交互方式调整模型行为，以最少的标记数据优化下游任务质量。这使其成为专有LLM的高性价比、高性能替代方案。

通过RFT，Predibase在训练过程结合了冷启动监督式微调、强化学习和课程学习，并且只使用了十几个标记数据点。

在Kernelbench数据集上进行的基准测试显示，Qwen2.5-Coder-32B-instruct经过强化后，其正确率比DeepSeek-R1和OpenAI的o1高出3倍，比Claude 3.7 Sonnet高出 4 倍以上，而模型的体量却比这三个小很多。

IT之家附开源地址：

https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址：

https://predibase.com/reinforcement-fine-tuning-playground

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

1日内4款华为系新车亮相，刘亦菲代言智界品牌，“车海战术”能提振销量？

2025-03-2126阅读
优派海外官网上线 XG275D-4K 显示器：4K 160Hz&1080P 320Hz 双模

2025-03-2126阅读
摩托罗拉Razr 60渲染图首次曝光或配备3.6英寸外屏

2025-03-2126阅读
哪吒汽车高管：如果哪吒倒闭了我们的工资也要被欠着

2025-03-2126阅读
AI搜索火热、数据安全升温：夸克会成为“典型”吗？

2025-03-2126阅读
楼市火红，贝壳却只赚 “吆喝” 不赚钱？

2025-03-2126阅读
广发证券澄清：苹果iPhone 18系列A20芯片将采用台积电2纳米工艺

2025-03-2126阅读
海信推出全球首台RGB-Mini LED电视：背光直接是彩色的

2025-03-2126阅读
AI应用正重塑企业华为2024年中国政企收入增长25%

2025-03-2126阅读
贵州移动携手科大讯飞共筑数字化发展新格局

2025-03-2126阅读