Meta亿元天团首个大模型交卷！耗时九个月，一雪Llama前耻-新科技-资讯-头部财经

Meta亿元天团首个大模型交卷！耗时九个月，一雪Llama前耻

资讯 » 新科技 2026-04-09

再见了，所有的羊驼。

亚历山大王带队9个月从零重构meta所有AI技术栈，在不断的质疑中交出超级智能实验室第一个模型：

主打原生多模态的Muse Spark。

模型发布后，meta股价火速拉升约7%，中间一度涨超近10%，当日整体上涨6%左右。

市场的反应可谓相当热烈。

随手一扒你就会发现，这款模型背后藏着不少我们熟悉的高手：思维链作者Jason Wei、o1核心贡献者Hyung Won Chung、被小扎天价挖来的余家辉、扩散模型核心人物宋飏……

嗯？当这群人凑在一起，很明显你就会找到一个关键词：推理。

没错，据Jason Wei爆料，9个月前他们坐在一起讨论时，首先写下的就是一款用于推理的llama模型脚本，而现在，完全体终于诞生。

而顶尖高手+耗时9个月打磨，Muse Spark也总算让meta在第三方测评中赶上第一梯队，一雪llama 4带来的前耻。

而且很有意思的一点是，meta这次一反常态，没有反复强调自己拿了多少SOTA，而是稍显克制地表示：

Muse Spark在多模态感知、推理、健康和自主任务方面表现不错，但在编程和长时间自主运行方面仍与对家的顶尖模型存在差距。

咳咳，看来之前llama 4确实给meta留下了心理阴影（doge）。

另外，Muse Spark的出生也终于让长期以来有关“meta开闭源”的讨论盖棺定论：

这次是真闭源了。

目前这款模型已上线meta网站和APP，API仅向部分合作伙伴开放。

（不过亚历山大王还是留了个口子，表示“计划未来开源后续版本”）

“meta回来了”

老规矩，先看一波测评成绩。

作为meta迄今最强大的模型，Muse Spark这次主要在三个方面表现突出：

一是多模态理解能力。

不管是看论文图表还是屏幕，各项得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

从网友们的测试来看，它好像尤为擅长图片转代码。

当然文本能力也不差（doge），在网友的激情测试中，它就火速通过了新版弱智吧风格的洗车测试。

100米外有个洗车店，我该开车去还是走路去。
Muse Spark：洗车当然要把车开过去，但没必要搞得跟上下班通勤似的。

（当然也不排除是数据污染的问题，毕竟问题出来也挺久了…）

再一个就是工具调用能力，测评情况也和多模态理解能力类似。

以及这次Muse Spark着重强调的医学能力。

由于和1000+医生展开了合作，它不仅在开放式健康问答HealthBench Hard上拿到42.8的最高分，而且在多模态医学问答MedXpertQA MM中位居前列。

不过短板我们开头也说了，Muse Spark仍在编程和Agent类任务上与其他顶尖选手存在差距。

可能也是为了尽量弥补这一点，他们这次还专门推出了Contemplating沉思模式。

主要是让多个Agent同时思考同一个问题，然后汇总结果找出最好的。

在这套打法下，Muse Spark就能和Gemini Deep Think、 GPT Pro这类极限推理模式展开正面PK了。

比如在“人类最后的考试”中，Muse Spark明显压过一头（不过在物理奥赛理论题中还是略逊一筹）。

（目前沉思模式正在meta网站灰度测试）

另外值得一提的是，meta这次无预告直接上线了“购物模式”。

亚历山大王表示，模型会结合用户在ins、Facebook、Threads上关注的创作者和品牌偏好，做个性化的购物推荐。

好好好，这次也不给你讨论的机会了，之前OpenAI可没少因为广告挨骂。

目前，随着Muse Spark测评一同出炉的，还有第三方机构的测评。

他们拿到Muse Spark的早期访问权测了一波，然后给出了一个结论：meta回来了！

在关键指标人工智能分析指数上，其得分仅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

这也和Muse Spark自己给出的测评成绩差不多。

对外界而言，初步来看，Muse Spark确实把meta重新带回了人工智能第一梯队。

背后训练细节

至于Muse Spark是如何做到这一点的，meta也公布了背后的训练细节。

核心其实就是亚历山大王提到的：9个月重构一切。

新的基础设施、新的架构、新的数据管道。

具体可以看网友给大家划的重点：

在预训练阶段，能够以比Llama 4 少10倍以上的计算量达到相同的性能水平。强化学习训练展现出平滑且可预测的改进，具有良好的泛化能力和可扩展性。Test-time阶段，在加入长度惩罚机制后，“思维压缩”开始生效，模型学会了用更少的token解决问题。

meta在博客中介绍，过去9个月，他们对Muse Spark的预训练技术栈进行了全面升级。

所有改进的目标，都是为了让每一分算力都能产生更大的价值。

为了验证效果，他们做了一个对比实验：先用一系列小模型拟合出一条“算力-能力”的Scaling曲线，然后计算要达到某个性能水平具体需要多少算力。

结果发现，相比Llama 4，Muse Spark达到同样水平所需要的计算量低了一个数量级以上（10.3倍）。

预训练完成后，他们进一步用强化学习来提升模型能力。

虽然大规模RL训练通常很不稳定，但他们声称自己的新架构做到了“稳中有进”。

如下图所示，随着RL训练步数增加，模型在训练数据上的成功率（无论是单次尝试还是16次中至少成功一次）呈现对数线性增长。

这说明，RL在提升可靠性的同时，没有破坏推理的多样性。

而且在模型从未见过的任务上，准确率同样在稳步提升——这说明RL带来的能力提升是可预测、可泛化的，不是死记硬背。

以及为了让模型在回答复杂问题之前先“想一想”，团队仍用强化学习训练它具备这种“测试时推理”能力。

不过需要注意，实践证明Test-time阶段的推理尤为耗费token，所以如何精打细算也是这一阶段的重点。

对此，他们用了两个关键手段来平衡效果与效率：

一是思考时间惩罚。鼓励模型用更短的推理路径得出正确答案，倒逼它学会“思维压缩”。

二是多智能体协作。让多个模型或模块协同工作，在保证响应速度不降的前提下提升整体表现。

然后在AIME这类高难度评测集上，他们观察到了一个有趣的“三阶段变化”：

模型一开始会不自觉延长思考，希望通过拉长推理过程来提高正确率。

但这会马上触发“思考时间惩罚”，于是模型被迫精简推理，学会用更少的token解决问题。

而在精简之后，模型还表现出了扩展性能——在高效的基础上继续优化解法，最终实现用更少的资源获得更强的性能表现。

也不乏翻车的

不过前面也说了，Muse Spark虽然将meta带回了第一梯队，但在编程、Agent类任务上仍有不足。

这不，模型刚发布，翻车集锦也来了……

有人想用它生成网站，结果3个请求一个都没实现，而且连最基本的前端都无。

不过后来贴主发现可能是偶然错误，模型正常情况下做出来的前端是这样的。

一个简单的编程任务，Muse Spark虽生成了一大堆东西，但根本跑不通。

在一个Python文件里实现自动微分（autograd）和神经网络。

网友甚至调侃，模型根本没在学，训练了1800个epoch，损失函数却一直卡在同一个值上没动过。

白白浪费算力了……

（正常情况下，随着训练进行损失应该逐步下降，表明模型在“学习”）

所以问题来了，有试过的朋友觉得亚历山大王的首个模型如何？

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

极巡科技总裁张占生出席2026轻型动力锂电池产业生态发展高峰论坛共探智能三轮发展新生态

2026-04-092阅读
中国联通推出eSIM手机绑定号码数量查询功能

2026-04-092阅读
英特尔联手SambaNova推出异构AI推理方案，结合三种处理器

2026-04-092阅读
OPPO Find X9s Pro手机外观曝光：四款配色，矩形相机模组

2026-04-092阅读
大众与Uber在洛杉矶启动自动驾驶巴士路测，所用车型为ID.Buzz

2026-04-092阅读
RL特训出「押题大师」？破解模型微调中的多样性危机与灾难性遗忘

2026-04-092阅读
黄仁勋刚讲完AI「五层蛋糕」，他们就跑通了！算力、模型、Agent一次打穿

2026-04-092阅读
国产AI营销工具来了！工作流被Agent重构，营销物料一键即出

2026-04-092阅读
史无前例！苹果一年两场科技春晚：明年春季三款新iPhone齐亮相

2026-04-092阅读
我国成功研发全球性光学导航定位技术

2026-04-092阅读