实测MiniMax M2.7 ：上能拆英伟达，下能演我爸妈-新科技-资讯-头部财经

实测MiniMax M2.7 ：上能拆英伟达，下能演我爸妈

资讯 » 新科技 2026-03-19

总觉得MiniMax才发布M2.5，如今M2.7就上线了。查了一下，真的只隔了一个月（要知道，中间还隔了一个春节）。

MiniMax在官方微信公众号文章中表示：“MiniMax M2.7是我们第一个模型深度参与迭代自己的模型。”

这几年，“AI自我进化”几乎已经从一个略带科幻感的说法，变成了行业里默认成立的方向。

谷歌前CEO埃里克·施密特（Eric Schmidt）更是总结，目前已经形成了一个“硅谷共识”：随着人工智能推理能力和记忆系统的发展，它将重塑人类的运作方式。最终我们将达到所谓的递归式自我改进——届时，系统将以人类无法理解的速度进行学习。

目前，这件事已经被拆解成更具体的工程路径：用模型生成数据、用模型做评测，甚至让模型参与到代码修改和实验流程里。

模型被放进了一个可以不断试错、不断反馈的循环系统里。在这个系统中，模型既是执行者，也是部分决策者，而人更多退到设定目标和边界的位置。

M2.7这次强调的Agent Harness，也是把原本需要多人协作完成的一整套研发流程，尽可能压缩进一个可以持续运行的循环里，让模型去承担其中越来越多的环节。

MiniMax亮出的Benchmark成绩也相当亮眼：

这些benchmark对应不同的能力维度：SWE Bench和VIBE-Pro更接近真实的软件工程任务，而Toolathon和MM-ClawBench则强调模型在复杂流程中的执行能力；相比之下，MLE-Bench等测试则更偏向算法与研究能力。

从结果来看，M2.7在工程执行类任务中已经进入第一梯队，这一点在几个关键指标上体现得比较明显。

比如在SWE Bench Pro上，它的表现已经接近甚至超过部分一线模型，这类测试本质上是在真实代码库中定位问题并完成修复，更接近“线上排障”的场景；

而在VIBE-Pro这种端到端项目任务中，M2.7同样处在第一梯队，这意味着它不只是会补代码，而是具备从需求到交付完整产出的能力。

另一个比较值得注意的是MM-ClawBench这一类Agent测试。这里考查的不是单步能力，而是模型在长流程中的稳定执行能力，能不能在多步骤任务中持续调用工具、保持上下文、最终把事情做完。

M2.7在这一项上已经接近头部模型，说明它在“能不能把活干完”这件事上，确实已经跨过了一道门槛。

但如果切换到更偏研究和复杂推理的任务，比如MLE-Bench这一类测试，M2.7仍有进步空间。这类任务更接近算法工程或科研场景，要求模型具备更强的抽象能力和系统性建模能力，这一部分目前仍然是头部模型的优势区间。

好了，硬核的信息放在一边，拿到MiniMax M2.7内测API的那一刻，我们第一反应是：“能用它整点什么活？”

把它丢进一个真实的场景里，看它能不能满足我的需求，这最直观，也最接地气。

所以我们给M2.7设计了四场“考试”，难度从低到高，场景从荒诞到严肃：先让它同时扮演我爸妈和弟弟在微信群里聊天，再搭一个Agent Harness框架让它自主编程（做一个霓虹灯数字时钟热热身，再从零写一个贪吃蛇游戏），最后把英伟达的年报甩给它，让它像分析师一样输出研究报告、交互式仪表盘和演示文稿。

玩了一下午，只想说：M2.7，你有点东西。

让AI同时扮演我全家人

我们做的第一个测试，灵感来源于每个中国人手机里都有的那个东西——家族微信群。

你知道的，就是那种群名叫“相亲相爱一家人”的群，里面永远有人在转发养生文章，有人在发语音消息，有人在催你结婚，还有人在打游戏不回消息。

这个场景之所以适合测试AI，是因为它对“角色一致性”的要求极高。

群里每个人的说话方式、关注点，甚至打字习惯都完全不同，而且他们之间还会互相接话、抬杠、拌嘴。

我们用M2.7搭了一个高仿微信界面的网页应用，连手机外壳、状态栏、绿色气泡都做了出来，力求还原度拉满。一开始我想了很多人设，比如前文提到的爷爷奶奶等。

但是最后我敲定了一家四口，他们分别是：

老李（爸爸），55岁国企退休干部，性格暴躁但刀子嘴豆腐心，钓鱼狂热爱好者，最恨吃蔬菜尤其是西兰花，说话爱引用名人名言，动不动就“我当年……”

妈妈（王秀英），52岁社区居委会大妈，超级唠叨但满满都是爱，养生达人兼厨艺高手，打字疯狂用 emoji，喜欢用【】强调重点，三句话之内必催女儿找对象

李小龙（弟弟），24岁，大学毕业两年了还没找到正经工作，整天在家打原神和王者荣耀，嘴贫爱怼人，满嘴“yyds”“绝绝子”，最怕爸爸说教，一被骂就装可怜或者转移话题，经常找姐姐借钱但从不还。

页面如下：

在我并未详细要求界面具体呈现的情况下，模型返回的设计相当让人满意，于是我开始尝试发送第一句话。

发送失败？显示的是调用API失败。于是我让M2.7给我检查一下问题所在。

M2.7很快就发现了BUG，在修复后终于可以对话了，但是……

设定上作为我的父亲，他却不认识我，很显然，这是一个人物设计上的BUG。于是我又让M2.7重新编排了一下角色身份，“我”被设定为家中的长女。

随后，一切正常，这个模拟器终于可以运行了。

虽然没有一上来就梦幻开局，但是Bug的发现和修复都非常丝滑。

M2.7的角色扮演能力很强。但我想强调的是，多角色群聊的难度远不止“给每个角色设定不同的语气”这么简单。

通过报错的那张图可以看到，对于不同角色，M2.7会分别调用模型，而不是说一次生成所有的对话。

它要求模型同时维持多个角色的人格状态、理解角色之间的关系（父女、母女、兄妹、夫妻），并且让这些关系在对话中自然地碰撞出火花。

一家四口，三个AI角色，每个人都有自己的小心思和说话习惯，还要让他们能和我互动起来。

M2.7做到了，而且做得相当自然。

一句话，从零造一个霓虹灯时钟

第二场开始，我决定上一点强度。

为了测试M2.7的Agent能力，我专门搭了一个Agent Harness测试框架。界面长得像一个深色主题的IDE：左边是 agent的思考轨迹面板，实时显示它每一步在想什么、打算做什么。

右边分成三块——任务配置区、虚拟文件系统（显示它创建了哪些文件）和实时预览窗口（直接渲染它写出来的 HTML）。

这个框架给M2.7提供了五个工具：write_file（创建/写入文件）、read_file（读取文件）、list_files（列出目录）、execute_js（在沙盒里跑 Javascript）和 finish（宣布任务完成）。

除此之外，什么都没有。相当于把一个程序员扔进一间空屋子，只给他一台电脑和一个需求。

第一个任务，我让M2.7做一个霓虹灯风格的数字时钟。M2.7需要理解需求、规划方案、写代码、自己检查、最后交付。

点击“启动 Agent”之后，M2.7的ReAct循环开始转了。最后在第5轮的时候，M2.7执行完了命令，实际上第4轮就行了，当时我这里出现了一些网络波动，导致M2.7调用工具失败。

说实话，这个结果本身并不让我们特别惊讶。

一个数字时钟对于2026年的大模型来说确实不算什么。

真正让人感到惊喜的，是整个开发过程非常流畅。

从理解需求到规划方案到写代码到自检到交付，整个Agent工作流跑得行云流水，没有一步多余的操作。这说明M2.7对ReAct框架的适配相当成熟，它知道什么时候该想、什么时候该动手、什么时候该收工。

好，热身结束。接下来，继续上难度。

让AI自己写一个贪吃蛇游戏

时钟毕竟太简单了。没有交互逻辑，没有状态管理，没有边界条件。

我需要一个真正能考验Agent自主推理和调试能力的任务，比如贪吃蛇。

这回的需求复杂度完全不在一个量级：Canvas绘制、键盘事件监听、蛇的移动逻辑、食物随机生成、碰撞检测（撞墙和撞自己）、计分系统、游戏结束判定、重新开始功能。

同时我还要求M2.7用Word记录下来自己的开发过程。

结果如下：

在第1轮里，M2.7没有着急写代码，它是先创建了一个规划。“我要开发什么什么任务”，“这个任务需要用到什么工具”等等。

第2轮，进入正题。M2.7会创建一个完整的HTML文件，包含所有功能，包括画布渲染、键盘控制、随机食物生成、计分、碰撞检测以及开始 / 重新开始功能。

第3轮，检查文件有没有被正确创建。

第4轮，检查语法，并且检查游戏的完整性。

第5轮，检查所有任务是否已经完成。

整个任务只需要5轮，共消耗25882个token。

不过也要说说不足。

整个过程并不是一帆风顺的——Agent 在早期的几轮迭代中，JSON 格式的工具调用偶尔会出错，导致框架解析失败，返回一个红色的错误提示。

M2.7 看到错误后能自我纠正，下一轮就输出了正确格式的 JSON，但这种“先犯错再改”的模式在需要长时间自主运行的 Agent 场景中是一个隐患——如果连续几轮都格式错误，可能会耗尽最大轮次限制而任务失败。

但总的来说，从时钟的“一次过”到贪吃蛇的“写→查→修→再验证”，这两个任务放在一起看，恰好展现了 M2.7 作为 Agent 的两面：面对简单任务时的高效利落，和面对复杂任务时的自主调试能力。

这也正是 M2.7 官方最强调的核心能力——Agent Harness 能力，不仅能在给定的工具框架中完成任务，还能主动迭代和自我纠错。

第四场：2159 亿美元的投行级财报分析

前面三个测试，一个考“说”，两个考“做”。

最后一个测试，我们想换个方向。

现在有很多金融行业的人也在使用Claude Opus这样的大模型，原因很简单，它们能把复杂的数据制作成直观的图表形式。

我把英伟达FY2026的完整财报数据甩给了M2.7。

然后我给了它一个任务：基于这些数据，生成三个专业交付物。

第一个是深度研究报告，要求投行风格，包含财务全景、五大业务板块分析、FY2027 预测模型、风险评估和估值分析。

第二个是交互式财务仪表盘，要求是蓝绿色风格的深色主题，包含图表、可调动的滑块，以及五个功能标签页。

第三个是12页演示文稿，要求投行风格，支持键盘翻页，包含数据可视化图表。

当然，这里必须诚实地说一句，这个测试的“含金量”需要打个折扣。因为财报数据是我预先搜集好喂给它的，而不是让它自己去搜索和整理的。

M2.7在这个任务中，尽职扮演了一个“拿到所有原材料后进行加工和呈现”的分析师，如果我们让它自己搜集数据（这个对现在的模型来说并不难），那它完全可以扮演一个“从零开始做调研”的研究员。

但即便如此，它对复杂金融数据的理解能力、对多种输出格式的驾驭能力，以及生成专业级可视化内容的能力，都给我们留下了深刻印象。

这个测试直接对应了M2.7官方宣传的复杂Office自动化能力——“支持复杂 Excel/Word/PPT 办公任务及多轮编辑”。从实测来看，在金融分析这个场景上，M2.7 确实能输出接近专业水准的内容。

还有一点特别想分享，MiniMax也在做更多有趣的尝试，这一点也令人惊喜。

比如，MiniMax这次官宣的时候就提到，他们构建了一个 Agent 交互系统 OpenRoom（openroom.ai），它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。有意思的是，原型项目已开源，这里面的代码大部分也是 AI 写的。

在这里，对话即驱动，实时产生视觉反馈与场景交互，角色可以主动地与环境交互。MiniMax希望能够随着模型 Agentic 能力的提升和社区的共建持续进化，探索出更多人与 Agent 之间全新的交互方式。

这次测下来，我最大的感受其实不是“它又变强了”，而是你开始能明显感觉到，一个模型不再只是等你提问的工具，而是可以被放进一个系统里持续运转的搭档。

我们评测挑选的场景是任何一个普通用户都可以上手用到的，从群聊模拟，到写代码，再到做分析报告，这些任务背后其实是同一件事：模型开始参与到一个完整流程里，而不是只负责某一个瞬间的输出。

当然，这一步还远远没有到终点。你依然能看到它在复杂推理、长流程稳定性上的边界，也能看到一些细节上的不稳定，比如工具调用格式错误、需要多轮修正才能收敛。这些问题在“单次对话”里可能不明显，但放进Agent这种长时间运行的框架里会被放大。

但有一点是比较直观的：当模型开始能在一个任务里自己往前推进、自己发现问题、再自己修正的时候，整个使用体验就变了。模型离“你问一句、它答一句”的形态越来越远，开始和你一起把一件事做完。

你的下一个生活、工作搭子，何必是人类？

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

实测MiniMax M2.7 ：上能拆英伟达，下能演我爸妈

2026-03-190阅读
理想汽车2026 GTC发布MindVLA-o1模型，让车具备理解3D空间能力

2026-03-190阅读
通义没有成为“阿里版Seed”

2026-03-190阅读
GPU英伟达发布LPU芯片：AI推理的「加速器」来了

2026-03-190阅读
最短命机皇诞生！三星首款三折叠停售，华为成最后赢家？

2026-03-190阅读
2025图灵奖公布！量子信息科学等了40年，终被“计算机界诺贝尔奖”认可

2026-03-190阅读
创新成果转化平台：加速医疗健康领域科研成果转化

2026-03-190阅读
Alpina加入宝马后首批车型基于双7打造，冲击更奢华产品线

2026-03-190阅读
续航达900公里新世代BMW i3全球首秀中国长轴版将亮相北京车展｜快讯

2026-03-190阅读
独家｜钉钉直播相机项目半路放缓

2026-03-190阅读