![]()
总觉得MiniMax才发布M2.5,如今M2.7就上线了。查了一下,真的只隔了一个月(要知道,中间还隔了一个春节)。
MiniMax在官方微信公众号文章中表示:“MiniMax M2.7是我们第一个模型深度参与迭代自己的模型。”
这几年,“AI自我进化”几乎已经从一个略带科幻感的说法,变成了行业里默认成立的方向。
谷歌前CEO埃里克·施密特(Eric Schmidt)更是总结,目前已经形成了一个“硅谷共识”:随着人工智能推理能力和记忆系统的发展,它将重塑人类的运作方式。最终我们将达到所谓的递归式自我改进——届时,系统将以人类无法理解的速度进行学习。
目前,这件事已经被拆解成更具体的工程路径:用模型生成数据、用模型做评测,甚至让模型参与到代码修改和实验流程里。
模型被放进了一个可以不断试错、不断反馈的循环系统里。在这个系统中,模型既是执行者,也是部分决策者,而人更多退到设定目标和边界的位置。
M2.7这次强调的Agent Harness,也是把原本需要多人协作完成的一整套研发流程,尽可能压缩进一个可以持续运行的循环里,让模型去承担其中越来越多的环节。
MiniMax亮出的Benchmark成绩也相当亮眼:
![]()
这些benchmark对应不同的能力维度:SWE Bench和VIBE-Pro更接近真实的软件工程任务,而Toolathon和MM-ClawBench则强调模型在复杂流程中的执行能力;相比之下,MLE-Bench等测试则更偏向算法与研究能力。
从结果来看,M2.7在工程执行类任务中已经进入第一梯队,这一点在几个关键指标上体现得比较明显。
比如在SWE Bench Pro上,它的表现已经接近甚至超过部分一线模型,这类测试本质上是在真实代码库中定位问题并完成修复,更接近“线上排障”的场景;
而在VIBE-Pro这种端到端项目任务中,M2.7同样处在第一梯队,这意味着它不只是会补代码,而是具备从需求到交付完整产出的能力。
另一个比较值得注意的是MM-ClawBench这一类Agent测试。这里考查的不是单步能力,而是模型在长流程中的稳定执行能力,能不能在多步骤任务中持续调用工具、保持上下文、最终把事情做完。
M2.7在这一项上已经接近头部模型,说明它在“能不能把活干完”这件事上,确实已经跨过了一道门槛。
但如果切换到更偏研究和复杂推理的任务,比如MLE-Bench这一类测试,M2.7仍有进步空间。这类任务更接近算法工程或科研场景,要求模型具备更强的抽象能力和系统性建模能力,这一部分目前仍然是头部模型的优势区间。
好了,硬核的信息放在一边,拿到MiniMax M2.7内测API的那一刻,我们第一反应是:“能用它整点什么活?”
把它丢进一个真实的场景里,看它能不能满足我的需求,这最直观,也最接地气。
所以我们给M2.7设计了四场“考试”,难度从低到高,场景从荒诞到严肃:先让它同时扮演我爸妈和弟弟在微信群里聊天,再搭一个Agent Harness框架让它自主编程(做一个霓虹灯数字时钟热热身,再从零写一个贪吃蛇游戏),最后把英伟达的年报甩给它,让它像分析师一样输出研究报告、交互式仪表盘和演示文稿。
玩了一下午,只想说:M2.7,你有点东西。
01
让AI同时扮演我全家人
我们做的第一个测试,灵感来源于每个中国人手机里都有的那个东西——家族微信群。
你知道的,就是那种群名叫“相亲相爱一家人”的群,里面永远有人在转发养生文章,有人在发语音消息,有人在催你结婚,还有人在打游戏不回消息。
这个场景之所以适合测试AI,是因为它对“角色一致性”的要求极高。
群里每个人的说话方式、关注点,甚至打字习惯都完全不同,而且他们之间还会互相接话、抬杠、拌嘴。
我们用M2.7搭了一个高仿微信界面的网页应用,连手机外壳、状态栏、绿色气泡都做了出来,力求还原度拉满。一开始我想了很多人设,比如前文提到的爷爷奶奶等。
但是最后我敲定了一家四口,他们分别是:
老李(爸爸),55岁国企退休干部,性格暴躁但刀子嘴豆腐心,钓鱼狂热爱好者,最恨吃蔬菜尤其是西兰花,说话爱引用名人名言,动不动就“我当年……”
妈妈(王秀英),52岁社区居委会大妈,超级唠叨但满满都是爱,养生达人兼厨艺高手,打字疯狂用 emoji,喜欢用【】强调重点,三句话之内必催女儿找对象
李小龙(弟弟),24岁,大学毕业两年了还没找到正经工作,整天在家打原神和王者荣耀,嘴贫爱怼人,满嘴“yyds”“绝绝子”,最怕爸爸说教,一被骂就装可怜或者转移话题,经常找姐姐借钱但从不还。
页面如下:
![]()
在我并未详细要求界面具体呈现的情况下,模型返回的设计相当让人满意,于是我开始尝试发送第一句话。
![]()
发送失败?显示的是调用API失败。于是我让M2.7给我检查一下问题所在。
![]()
M2.7很快就发现了BUG,在修复后终于可以对话了,但是……
![]()
设定上作为我的父亲,他却不认识我,很显然,这是一个人物设计上的BUG。于是我又让M2.7重新编排了一下角色身份,“我”被设定为家中的长女。
![]()
随后,一切正常,这个模拟器终于可以运行了。
虽然没有一上来就梦幻开局,但是Bug的发现和修复都非常丝滑。
M2.7的角色扮演能力很强。但我想强调的是,多角色群聊的难度远不止“给每个角色设定不同的语气”这么简单。
通过报错的那张图可以看到,对于不同角色,M2.7会分别调用模型,而不是说一次生成所有的对话。
它要求模型同时维持多个角色的人格状态、理解角色之间的关系(父女、母女、兄妹、夫妻),并且让这些关系在对话中自然地碰撞出火花。
一家四口,三个AI角色,每个人都有自己的小心思和说话习惯,还要让他们能和我互动起来。
M2.7做到了,而且做得相当自然。
02
一句话,从零造一个霓虹灯时钟
第二场开始,我决定上一点强度。
为了测试M2.7的Agent能力,我专门搭了一个Agent Harness测试框架。界面长得像一个深色主题的IDE:左边是 agent的思考轨迹面板,实时显示它每一步在想什么、打算做什么。
![]()
右边分成三块——任务配置区、虚拟文件系统(显示它创建了哪些文件)和实时预览窗口(直接渲染它写出来的 HTML)。
这个框架给M2.7提供了五个工具:write_file(创建/写入文件)、read_file(读取文件)、list_files(列出目录)、execute_js(在沙盒里跑 Javascript)和 finish(宣布任务完成)。
除此之外,什么都没有。相当于把一个程序员扔进一间空屋子,只给他一台电脑和一个需求。
第一个任务,我让M2.7做一个霓虹灯风格的数字时钟。M2.7需要理解需求、规划方案、写代码、自己检查、最后交付。
点击“启动 Agent”之后,M2.7的ReAct循环开始转了。最后在第5轮的时候,M2.7执行完了命令,实际上第4轮就行了,当时我这里出现了一些网络波动,导致M2.7调用工具失败。
![]()
说实话,这个结果本身并不让我们特别惊讶。
一个数字时钟对于2026年的大模型来说确实不算什么。
真正让人感到惊喜的,是整个开发过程非常流畅。
从理解需求到规划方案到写代码到自检到交付,整个Agent工作流跑得行云流水,没有一步多余的操作。这说明M2.7对ReAct框架的适配相当成熟,它知道什么时候该想、什么时候该动手、什么时候该收工。
好,热身结束。接下来,继续上难度。
03
让AI自己写一个贪吃蛇游戏
时钟毕竟太简单了。没有交互逻辑,没有状态管理,没有边界条件。
我需要一个真正能考验Agent自主推理和调试能力的任务,比如贪吃蛇。
这回的需求复杂度完全不在一个量级:Canvas绘制、键盘事件监听、蛇的移动逻辑、食物随机生成、碰撞检测(撞墙和撞自己)、计分系统、游戏结束判定、重新开始功能。
同时我还要求M2.7用Word记录下来自己的开发过程。
![]()
结果如下:
在第1轮里,M2.7没有着急写代码,它是先创建了一个规划。“我要开发什么什么任务”,“这个任务需要用到什么工具”等等。
![]()
第2轮,进入正题。M2.7会创建一个完整的HTML文件,包含所有功能,包括画布渲染、键盘控制、随机食物生成、计分、碰撞检测以及开始 / 重新开始功能。
![]()
第3轮,检查文件有没有被正确创建。
![]()
第4轮,检查语法,并且检查游戏的完整性。
![]()
第5轮,检查所有任务是否已经完成。
![]()
整个任务只需要5轮,共消耗25882个token。
![]()
不过也要说说不足。
整个过程并不是一帆风顺的——Agent 在早期的几轮迭代中,JSON 格式的工具调用偶尔会出错,导致框架解析失败,返回一个红色的错误提示。
M2.7 看到错误后能自我纠正,下一轮就输出了正确格式的 JSON,但这种“先犯错再改”的模式在需要长时间自主运行的 Agent 场景中是一个隐患——如果连续几轮都格式错误,可能会耗尽最大轮次限制而任务失败。
但总的来说,从时钟的“一次过”到贪吃蛇的“写→查→修→再验证”,这两个任务放在一起看,恰好展现了 M2.7 作为 Agent 的两面:面对简单任务时的高效利落,和面对复杂任务时的自主调试能力。
这也正是 M2.7 官方最强调的核心能力——Agent Harness 能力,不仅能在给定的工具框架中完成任务,还能主动迭代和自我纠错。
04
第四场:2159 亿美元的投行级财报分析
前面三个测试,一个考“说”,两个考“做”。
最后一个测试,我们想换个方向。
现在有很多金融行业的人也在使用Claude Opus这样的大模型,原因很简单,它们能把复杂的数据制作成直观的图表形式。
我把英伟达FY2026的完整财报数据甩给了M2.7。
然后我给了它一个任务:基于这些数据,生成三个专业交付物。
第一个是深度研究报告,要求投行风格,包含财务全景、五大业务板块分析、FY2027 预测模型、风险评估和估值分析。
![]()
第二个是交互式财务仪表盘,要求是蓝绿色风格的深色主题,包含图表、可调动的滑块,以及五个功能标签页。
第三个是12页演示文稿,要求投行风格,支持键盘翻页,包含数据可视化图表。
![]()
当然,这里必须诚实地说一句,这个测试的“含金量”需要打个折扣。因为财报数据是我预先搜集好喂给它的,而不是让它自己去搜索和整理的。
M2.7在这个任务中,尽职扮演了一个“拿到所有原材料后进行加工和呈现”的分析师,如果我们让它自己搜集数据(这个对现在的模型来说并不难),那它完全可以扮演一个“从零开始做调研”的研究员。
但即便如此,它对复杂金融数据的理解能力、对多种输出格式的驾驭能力,以及生成专业级可视化内容的能力,都给我们留下了深刻印象。
这个测试直接对应了M2.7官方宣传的复杂Office自动化能力——“支持复杂 Excel/Word/PPT 办公任务及多轮编辑”。从实测来看,在金融分析这个场景上,M2.7 确实能输出接近专业水准的内容。
还有一点特别想分享,MiniMax也在做更多有趣的尝试,这一点也令人惊喜。
比如,MiniMax这次官宣的时候就提到,他们构建了一个 Agent 交互系统 OpenRoom(openroom.ai),它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。有意思的是,原型项目已开源,这里面的代码大部分也是 AI 写的。
![]()
在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。MiniMax希望能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索出更多人与 Agent 之间全新的交互方式。
这次测下来,我最大的感受其实不是“它又变强了”,而是你开始能明显感觉到,一个模型不再只是等你提问的工具,而是可以被放进一个系统里持续运转的搭档。
我们评测挑选的场景是任何一个普通用户都可以上手用到的,从群聊模拟,到写代码,再到做分析报告,这些任务背后其实是同一件事:模型开始参与到一个完整流程里,而不是只负责某一个瞬间的输出。
当然,这一步还远远没有到终点。你依然能看到它在复杂推理、长流程稳定性上的边界,也能看到一些细节上的不稳定,比如工具调用格式错误、需要多轮修正才能收敛。这些问题在“单次对话”里可能不明显,但放进Agent这种长时间运行的框架里会被放大。
但有一点是比较直观的:当模型开始能在一个任务里自己往前推进、自己发现问题、再自己修正的时候,整个使用体验就变了。模型离“你问一句、它答一句”的形态越来越远,开始和你一起把一件事做完。
你的下一个生活、工作搭子,何必是人类?
相关文章
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读
2026-03-190阅读