谷歌的Nano Banana模型自发布以来,仅用一周时间就迅速引爆全球社区,成为讨论热度最高的新锐代表。就在昨天,字节也正式推出了Seedream 4.0,高调在「即梦」平台全量上线。
一边是国际大厂的新锐之作,另一边是国产模型的顶尖代表,两位“选手”几乎前后脚站上擂台卷生卷死,气氛瞬间拉满。
为了更直观地呈现两款模型的真实水平,我们特别设计了15道考题,涵盖文本生成、逻辑推演、图像处理、创意表达等多个维度。
废话不多说,让我们通过这份详细的答卷来一探究竟。
实测部分
01
嘿!你的悟空掉了!
prompt:手机上坐着一个黑神话悟空
这波题考的是这两个模型,能不能认出游戏圈顶流“悟空”?还得有想象力,让他合理地“坐”在手机上。
参考图如下:
先看即梦4.0,如果你仔细放大看,能看出来即梦4.0生成的悟空坐着的姿势很真实,能准确捕捉《黑神话:悟空》的美术风格和角色神韵。
相比之下,Nano Banana在人物头身比例的精准度上略有失衡,显得不够协调。
本轮小结: 即梦4.0在写实还原与场景融合上小胜一筹
02
2D到3D的风格转换
prompt:将图片中所有小怪兽,做成3D模型
这是一个典型的“图生图”测试,核心在于考察模型的图像理解、风格迁移和3D空间构建能力。
模型需要首先识别出图片中的“小怪兽”主体,然后将其从2D平面设计稿“翻译”成立体、饱满的3D模型,并赋予其合适的材质和纹理。
即梦4.0本身自带强烈的模型和手办质感,非常适合这个主题。它能生成下面这样类似“泡泡玛特”风格的潮玩或精致的游戏模型,色彩鲜艳,造型可爱且富有设计感,主要是一致性很好。
Nano Banana在理解上出现了偏差。它似乎将指令理解为:将整体画面进行3D化“浮雕”处理,而非将每个怪兽独立建模,最终生成了一张立体感贴画,未能完成核心任务。
本轮小结: 即梦4.0对3D指令的理解和执行能力稍强一些。
03
中国古画的再创作
prompt:给这幅中国古画的右上角,画几行白鹭。
这回主要考验AI能不能在中国风古画上加戏,模型不仅要画出“白鹭”,更重要的是要让这些白鹭完美融入古画的意境中,无论是笔触、墨色还是构图,都不能有违和感。
参考图如下:
左侧为即梦4.0,右侧为Nano Banana。出乎意料,这一轮两者都表现不差。它们都没有生硬地植入写实白鹭,而是模仿了原作的笔触和意境,并融入了自身的理解。添加的白鹭元素与背景浑然一体,没有明显的违和感。
本轮小结: 平分秋色,都展现了不错的多风格艺术融合能力。
04
星舰印满比卡丘
prompt:将星舰上印满比卡丘。
这是一个考验纹理应用、透视理解和IP识别的综合案例。模型需要将“比卡丘”这个2D形象,作为纹理“贴”在“星舰”这个复杂的3D曲面上,并处理好透视、变形和光影变化,同时要保证比卡丘形象的准确性。我随便找来了一张星舰的图片:
这是即梦4.0生成的,在3D曲面物体上,比卡丘的元素融合确实很好。比卡丘纹理在星舰不同曲面(如机翼、机身)上的贴合程度,基本不存在不自然的拉伸或突出星舰本身的空间。
下面这具有视觉冲击力的是Nano Banana生成的,比卡丘贴的严丝合缝。能看得出来,“比卡丘”和“星舰”都是Nano Banana舒适区内的元素,它能生成视觉冲击力极强的画面。
相比之下,Nano Banana的写实渲染能力更强一下,会细致地处理每一个比卡丘在不同角度下的形态,让整个涂装看起来很“真实”。
本轮小结: 两者都出色完成任务。Nano Banana在视觉效果和艺术氛围更好一些。
05
手绘手帐风格
prompt:手帐手绘风格,介绍Transformer是什么?鱼香肉丝怎么做?
“手帐风”是一种集插画、贴纸、文字等多种元素于一体的拼贴艺术。模型需要理解并复现这种看似随意却充满设计感的杂乱美学。
即梦4.0的表现很不错。生成的中文文字清晰准确,几乎没有错误。无论是解释Transformer架构的图文排版,还是鱼香肉丝的食材图鉴,都细节满满,风格统一,实用性与美观度兼备。
尤其是下面的鱼香肉丝制作指南,看得出来对细节的把控很到位,整体所有食材的手绘图细节都还不错。
Nano Banana在趣味性上稍逊一筹。但其优势在于对复杂元素的组织能力,在介绍Transformer的页面中,它运用了更多样、更复杂的图形元素来构建画面,视觉层次更丰富。
本轮小结: 即梦4.0在视觉上更可爱些,Nano Banana则在图形元素的复杂组合上更有能力。
06
Sam Altman和Elon Musk 合影
prompt:让他俩合影
这是一个名人肖像融合的经典测试。考验两个AI图片模型,在生成合影时处理光线、表情和身体姿态的自然度。
在这一个测试里,相比Nano Banana,即梦4.0的表现会更加自然一下,两个人仿佛“世纪大和解”一样。
只是,啊,喂!为什么Sam Altman和Elon Musk的脸部的元素有点趋同了?
而在Nano Banana的生成结果中,二者还是像我在参考图中提供的元素那样,保持动作不变,很不自然。人物如同被简单地“抠图”并置,缺乏真实的互动感。
本轮小结: 即梦4.0在营造自然氛围上更优,但面部细节仍需打磨。
07
品牌元素的精准植入:OpenAI商标
prompt:将多张OpenAI商标图印在Elon Musk的黑色西服上。
这个测试,与星舰案例类似,但更考验在衣物褶皱上的纹理贴合能力。黑色西服有明暗变化和布料褶皱,模型需要让商标图案,根据这些物理变化产生自然的光影和透视形变。
OpenAI商标图如下:
二者相比,硬要说的话,即梦4.0将OpenAI元素融入Elon Musk的西服后,产生的效果看起来更有设计感一些,但是像是西服的袖口位置,并没有被渲染到:
相反,Nano Banana更加忠实于提示词,将OpenAI的商标顺着西服的褶皱印的满满当当的。Logo会根据衣物的褶皱产生自然的扭曲。
本轮小结: Nano Banana在指令的忠实度和技术实现上更胜一筹。
08
Elon Musk的手办
接下来,我们把上面Nano Banana生成的图做一个当下最流行的手办模型。
prompt:使用nano-banana模型,制作图片中角色的1/7比例商业手办,风格为写实,并置于真实环境中。手办摆放在电脑桌上,配有一块 无文字的圆形透明亚克力底座。电脑屏幕上显示的是该手办的ZBrush建模过程。电脑屏幕旁边放置一只 万代(BANDAI)风格的玩具包装盒,包装上印有原始插画,呈现为二维平面插图。请确保所有元素与参考图严格一致。
二者的表现,可以说是不相上下。只是即梦4.0背后电脑屏幕上的3D模型稍微有些幻觉:
Nano Banana确实会更加严谨一些,从手办的写实风格,到包装盒的平面插图都执行的不错:
本轮小结: 在复杂指令的执行上,Nano Banana的精准度略微领先。
09
多元素融合:换装
下面我们来试试更多的元素融合。
prompt:图一的女性穿上图二的搭配。
精准局部重绘是AI图像编辑的核心功能。考验的是模型在替换主体后,保持背景、光影、透视不变,并使新元素与环境无缝衔接的能力。
两者在整体表现上都相当不错,成功地将新服装融合到人物身上,效果逼真自然。但在细节处理上,两者都还有提升空间,例如对手腕配饰的理解和重绘都出现了一些偏差。
本轮小结: 整体打平,均属于“说得过去”但未达完美的水平。
10
狗换成哈士奇
这个案例也是看两个模型能不能精准重绘画面中的某个元素。
prompt:将男子的狗换成哈士奇。
这一轮,两个模型都展现了成熟的图像编辑能力,无论是写实的哈士奇毛发,还是与环境的融合度,都处理得非常好,效果难分伯仲。
本轮小结: 再次平分秋色,均能高质量完成任务。
11
剑风传奇漫画上色
下面这个案例会更复杂些。非常考验模型的上色能力和对特定艺术风格的理解。不仅仅是填色,好的AI上色需要理解,漫画作者三浦建太郎原画中的光影、材质和氛围,用色彩来增强而非破坏原作的厚重感和力量感。
prompt:给剑风传奇的漫画上色。
即梦4.0上色风格更偏向色彩夸张、对比强烈的美式漫画,视觉冲击力强。
Nano Banana对暗黑系的日漫风格理解显然更深。它的上色方案很好地保留了原作的史诗感和阴郁氛围。
本轮小结: Nano Banana对特定漫画风格的理解和诠释更胜一筹。
12
塞尔达传说海报更改
下面这个案例测试模型对一个成熟、广受欢迎的游戏IP艺术风格的掌握程度,以及在此基础上的创意延展能力。
prompt:将这张海报男主对面改成血月。
即梦4.0的生成结果更为震撼些,如果你仔细看左侧男主,会发现即梦重新给他打上了一层高光。整体人物的3D感更强些。
Nano Banana更倾向于在原作基础上进行细节增强或无痕的元素增减,保持海报的原汁原味。它并没有使用很夸张的元素,去改变整体海报的感觉。
本轮小结: 即梦4.0的二次创作更夸张一点,但Nano Banana的表现更忠实于原海报,平分秋色。
13
塞尔达公主发型9宫格
两个模型都很适合通过1张图片,衍生出多种创意元素。
prompt:根据我提供的参考图片,生成9种不同的发型设计,并整合在同一张照片中展示。画面需通过特写视角,分别突出每一种发型的细节与特点,整体构图统一、美观。
参考图如下:
不知为何,即梦4.0总是一张一张的生成,于是我将图片拼接到了一起。它会生成各种角度和姿态的图片,甚至出现了一些形态较为“诡异”的设计。
像第一排最左侧第二张的那张图是什么鬼!
Nano Banana表现更为稳定。它严格地保留了原图的背景和人物姿态,仅针对发型进行多样化设计,更忠实于提示词和原有画风,最终结果的风格一致性很强。
本轮小结: Nano Banana在保持一致性和遵循指令方面表现更优。
14
世界十大地标建筑等轴模型
这个测试,主要针对于模型对于特定建筑的识别能力和对“等轴测图”这一特定绘画风格的执行能力。“等轴模型”风格常见于模拟经营游戏或扁平化设计中,要求所有物体在统一的斜向视角下呈现,无近大远小的透视。
prompt:生成世界10大地标建筑的等轴模型
Emmmm怎么说呢,左侧是即梦4.0,以一种非常“直白”的方式完成了任务,它将10个地标建筑分别生成为独立的等轴模型,并严谨地配上了文字标签,像是一份建筑图鉴。
Nano Banana则将所有地标建筑融合在一张大图里,创造了一个微缩景观世界,整体更像是一个精美的模拟经营游戏资产。
本轮小结: 即梦4.0胜在信息清晰,Nano Banana胜在模型整合。
15
淘宝页面精准元素修改
下面就是最后一个案例了,这是一个比较实用的商业应用场景测试。模型需要“读懂”图片上的文字和商品,理解画面中各个元素的位置,并精准地修改图片上的对应文字和数字,同时保持原有风格不变。
prompt:沙拉酱+肉松大于等于95%,券后1.67
这次的结果就不像以上那些结果“难解难分”了,即梦4.0的表现明显更好一些。它能够识别出需要修改的文字区域,然后进行精准替换。同时完全不影响周围的UI元素和商品图像。
尽管多次尝试,Nano Banana虽然能精准修改数字,但总会“顺手”改变面包的形态,无法做到精准的局部控制。
本轮小结: 即梦4.0优势很明显,比较擅长复杂画面的精准元素修改。
总结
经过15轮风格各异的“大考”,我们对即梦4.0和Nano Banana这两位AI绘画“选手”的实力画像也变得愈发清晰。即梦4.0在写实还原、创意设计和精准编辑方面,功力更深厚些。Nano Banana则更忠于提示词、风格也更多变些。另一个亲身体验下来的直观发现是:即梦4.0的生成速度真的很快,几乎只要Google AI Studio或Gemini调用Nano Banana所需时间的一半。
不过,看完这场“神仙打架”,最大的感触是:国产模型和国外大厂的差距,已经越来越小,甚至相持不下了。说实话,我已经提前预见到,2025年下半年,AI图像生成模型的竞争只会更加白热化,同时也会更加百花齐放。
相关文章
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读
2025-09-1015阅读