新闻资讯，感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

新闻资讯：感谢 DeepSeek：Predibase 发布全球首个端到端强化微调平台并开源，支持无服务器和端到端训练方法

2025-3-21 点击关注我们

昨日晚间，大模型训练、开发平台 Predibase 发布了一个完全托管、无服务器、端到端的强化微调平台，也是首个端到端强化微调（RFT）平台。

Predibase 表示，DeepSeek-R1 的开源在全球 AI 领域产生了巨大影响，让很多人意识到强化学习微调对训练大模型的重要性。受此启发，他们开发了这个端到端无服务器强化微调平台。

与传统的监督式微调相比，RFT 不依赖大量的标注数据，而是通过奖励和自定义函数来完成持续地强化学习，同时支持无服务器和端到端训练方法，从数据管理、训练模型到应用部署可以在同一个平台完成。用户只需要一个浏览器，设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。

为了展示 RFT 的强大，Predibase 基于阿里 Qwen2.5-Coder-32B-instruct 微调了一个专门用于将 PyTorch 代码翻译为 Triton 的模型 Predibase-T2T-32B-RFT，并根据其他更大的基础模型（包括 DeepSeek-R1、Claude 3.7 Sonnet 和 OpenAI o1）对内核正确性进行了基准测试。

与传统的监督式微调方法不同，Predibase-T2T-32B-RFT 利用 RFT 以交互方式调整模型行为，以最少的标记数据优化下游任务质量。这使其成为专有 LLM 的高性价比、高性能替代方案。

通过 RFT，Predibase 在训练过程结合了冷启动监督式微调、强化学习和课程学习，并且只使用了十几个标记数据点。

在 Kernelbench 数据集上进行的基准测试显示，Qwen2.5-Coder-32B-instruct 经过强化后，其正确率比 DeepSeek-R1 和 OpenAI 的 o1 高出 3 倍，比 Claude 3.7 Sonnet 高出 4 倍以上，而模型占用的空间却小了一个数量级。

附开源地址：

https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址：

https://predibase.com/reinforcement-fine-tuning-playground

阅读：40

扎克伯格属下“世界最快AI超级计算机”可翻译200种语言

扎克伯格属下“世界最快AI超级计算机”可翻译200种语言

信通院发布《电信业数字化转型发展白皮书（2022年）》

信通院发布《电信业数字化转型发展白皮书（2022年）》

共筑全场景智慧生态华为HMS全球应用创新大赛火热开启

共筑全场景智慧生态华为HMS全球应用创新大赛火热开启

Canalys：2024 年印度智能手机出货量增长 5%，vivo 第一、苹果 Q4 首次进入前五

Canalys：2024 年印度智能手机出货量增长 5%，vivo 第一、苹果 Q4 首次进入前五

工信部田玉龙：未来数字化转型主要抓三个重点

工信部田玉龙：未来数字化转型主要抓三个重点

刚浏览完，其他APP就推送相关内容？工信部出手了

刚浏览完，其他APP就推送相关内容？工信部出手了

一文速览：如何推进算网融合健康快速发展？

一文速览：如何推进算网融合健康快速发展？

阿里、腾讯、字节居家办公“三国杀” 网上办公软件卷起来了

阿里、腾讯、字节居家办公“三国杀” 网上办公软件卷起来了

年轻人爱上适老版App 只为逃出算法的包围

年轻人爱上适老版App 只为逃出算法的包围

美国数字化转型快数字鸿沟加剧不公

美国数字化转型快数字鸿沟加剧不公

上一篇：北京将建设全球“开源之都” 推动人工智能大模型开源开放
下一篇：百度发布文心4.5及X1大模型，宣布X1价格为R1一半

关于我们产品中心解决方案新闻资讯客户案例知识专区售后服务联系我们

我们的联系方式

联系地址：云南省昆明市官渡区永平路188号鑫都韵城写字楼6栋1004号
联系电话：0871-64605728、传真号码：0871-64605728
电子邮箱：19701580@qq.com

点击拨打 0871-64605728 咨询我们

长按指纹即可关注我们

微网站由云港互联设计开发点击进入

【版权声明】本站部分内容由互联网用户自行发布，著作权或版权归原作者所有。如果侵犯到您的权益请发邮件致info@ynjwz.com，我们会第一时间进行删除并表示歉意。