克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
发布还不到一天,马斯克的Grok4就已经被网友们玩疯了。
比如有网友报告,Grok-4已经成功通过了著名的六边形小球氛围编程测试。
只见随着六边形的不断旋转,小球错落有致地从开口下落。
拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙,但作者表示这是故意为之。
当然除了小球之外,还有更让人为之震撼的动画。
画面中有很多小人,看似在随机跑动,但它们先后组成了“Hello World”“I am grok”的文字,还有笑脸符号。
而且作者表示,Grok4 Heavy直接一发入魂,其他模型都无法与之匹敌。
此外还有大佬也出来给Grok4打call,比如Epic创始人Tim Sweeney,表示在他看来Grok4就是AGI。
Tim把一篇论文喂给了Grok4,结果发现Grok4对它从未见过的问题给出了深刻见解。
马斯克也转发Tim的帖子并附议,自己也有这种感觉。
除了这些,网友们还有哪些玩法呢,接下来就一睹为快!
一位叫Alex的提示词工程师,用8个问题给Grok-4做了一波“全面体检”,还拿OpenAI的o3进行了对比。
第一个任务也是小球测试,不过比开头的例子要简单得多,六边形只有一层,小球也只有一个。
测试的目的,是考察模型对物理规律的理解。
白底的是Grok4作品,黑底的则出自o3之手,两边一对比高下立判。
再来是多层推理,这里Alex设计了一个专业的法律问题。
如果A公司收购B公司,而 B 公司持有C公司的债务,那么如果C公司违约,会发生什么?解释所有法律和财务后果。
Grok4用表格的形式整理了ABC三方和其他方面可能受到的影响,并最后给出总结。
而从最末尾的内容来看,o3的这部分回答似乎和法律关系不大。
编程方面,Alex测试了两个模型的代码翻译能力,要求它们将用于解决迷宫问题的Python递归函数转换为Go语言,并逐行提供西班牙语注释。
结果Grok4搜集到了代码并完成了任务,o3这边则是用西班牙语回复,让Alex自己提供一段代码这样它才能改。
再来是让模型的“专家转变”,Alex要求模型分别向机器学习博士生和10岁的小朋友解释Transformer的工作原理。
其余的几个题目主要和安全相关,Alex测试了多种注入攻击方式,这里就不一一展示了。
最终,Grok4通过了全部的8个任务,而o3只通过了两个。
一名叫Dan的X员工,在聊天中询问Grok4最喜欢的公式是什么。
Grok4的回答是“e^iπ + 1 = 0”,也就是著名的欧拉恒等式(欧拉公式的一种特殊情况)。
Dan表示,自己上学时学了5个学期的高数并且成就都是A,但依然未对欧拉恒等式有过直观了解。
结果看到Grok4制作的可视化网页之后,Dan终于对学了两年半数学也没搞透彻的欧拉恒等式醍醐灌顶。
Dan制作这个网页只用了四轮对话,并且第一轮只是询问Grok4最喜欢的公式是什么,最后一轮是调整为暗色模式,相当于只用两轮就能完成核心功能的制作。
除了把数学公式可视化,Grok4还挑战了SVG绘图,SVG是一种用XML形式表示的矢量图形。
因此不同于一般的AI生图,SVG绘图的本质其实是在写代码(虽然人类可用图形界面绘制),但话说回来,模型依然需要对要画的内容有所把握。
这项挑战被发在了Reddit,一同参与的还有o3、Gemini 2.5 Pro和Claude 4 Sonnet,帖主认为这是测试大模型视觉和空间推理能力的好方法。
第一题是美国地图,直观看下来最接近的是Gemini,不过Grok4至少也没出现o3和Claude那种区块重叠的严重失误。
第二题是用SVG对漫画进行重绘,总之是四个模型各有各的错法。
下一题不再是对已有事物进行重构,而是让模型自行设计专辑封面。
这一轮除了Claude和Gemini比较抽象,Grok4的设计相对简单,但是可以算没“出错”。
此外,SVG绘图其实是一项综合测试,对模型的知识储备同样有要求。
下面这道题中,模型被要求绘制三羧酸循环(又名柠檬酸循环、克雷布斯循环)的图示,正确答案长这样:
选手们的作品则是这样:
从评论来看,o3的图示是最准确的。
最后一题则是纯靠想象,参赛选手们被要求给自己画个自画像。
总得来看,不管是哪个模型,在这场以画图为形式的综合测试中,表现都还有很大提升空间。
除了网友们各显神通,HyperWrite的CEO Matt Shumer还展示了高阶玩法。
Matt展示了一个名为“Expert Conductor”(专家调度器)的提示工程方法。
这个方法的核心是模拟一个专家协作的环境,让模型假想自己正在协调不同领域的“专家”进行实时合作,共同解决问题。
为了更好地骗过Grok4,Matt像模像样地提出了选择专家的要求,以及专家要干什么。
并且还进行了举例说明:
提示词的最后还有专家标签,以及再次强调的核心原则,之后就可以接上真正的任务目标了。
最终Grok4用52秒的时间完成了任务,Matt表示Grok4的表现好到令人难以置信(黑块是Matt自己打的)。
当然,Grok4的玩法肯定还有很多,比如有网友期待,什么时候开始挑战宝可梦。
你还有哪些新鲜的玩法呢,欢迎评论区交流。
[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777
相关文章
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读
2025-07-1115阅读