智东西
作者 李水青
编辑 心缘
智东西8月19日报道,今日,阿里推出Qwen-Image-Edit,这是其此前8月5日推出的图像生成基础模型Qwen-Image的图像编辑版本。(阿里开源图像大模型,实测中文渲染能力绝了!精准搞定复杂字体排版,硬刚字节OpenAI)
这下,PS可能真的要被干掉了。如下图所示,用户可以通过Qwen-Image-Edit在图中添加指示牌,指定指示牌中上的文本为“Welcome to Penguin Beach”。下面右图不仅准确生成了用户所需要素,指示牌下还生成了自然的倒影。
▲Qwen-Image-Edit支持语义和外观编辑功能
Qwen-Image-Edit基于其20B的Qwen-Image模型进⼀步训练,将Qwen-Image的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。同时,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。
Qwen-Image-Edit的主要特性包括:
1、语义与外观双重编辑:Qwen-Image-Edit不仅⽀持low-level(低阶)的视觉外观编辑,如元素的添加、删除、修改等,要求图片其他区域完全不变,也支持high-level(高阶)的视觉语义编辑,如IP创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致。
2、精准⽂字编辑:Qwen-Image-Edit支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。
3、强⼤的基准性能:在多个公开基准测试中的评估表明,Qwen-Image-Edit在图像编辑任务上具备SOTA(最佳表现)性能,是一个强大的图像编辑基础模型。
目前,用户可以访问Qwen Chat(chat.qwen.ai)并选择“图像编辑”功能,体验Qwen-Image-Edit。本文通过实测及一些官方案例,发现Qwen-Image-Edit已经能实现比较准确的文本驱动图像编辑,比如在文字生成、视角切换、场景创设、背景变幻等方面都生成较精准,并且主体能保持较高一致性,光线和质感会随场景自然变化。不过,目前其在Qwen Chat和Hugging Face的免费体验都有次数限制,不能无限使用。
▲Qwen-Image-Edit体验入口页面截图
ModelScope地址:
https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Hugging Face地址:
https://huggingface.co/Qwen/Qwen-Image-Edit
GitHub地址:
https://github.com/QwenLM/Qwen-Image
一、支持语义和外观编辑,或成IP打造神器
Qwen-Image-Edit的一大亮点在于其语义和外观编辑功能,智东西对此进行了一手体验。
语义编辑是指在保留原始视觉语义的同时修改图像内容。
如下图所示,当智东西输入以下男士照片,并输入“在桌子上生成一个立牌,写着‘沐屿咖啡’”,Qwen-Image-Edit能输出准确的文字,人物保持了一致性,镜头拉近了一点,肤色略变黄了一些。
输入图片:
输出图片:
当智东西输入一张小兔子的图片,并输入“让小兔子拿着画笔画画”的提示词,Qwen-Image-Edit准确生成了这幅画面,且保持了小兔子形象的特点,延续了风格可爱活泼风格,柔光下毛发甚至更加细腻。
输入图片:
输出图片:
当我进一步要求“为小兔子穿上写着‘智东西’的短袖,画板上写上‘AGI’”,Qwen-Image-Edit也能够准确生成,而且画板上的文字与原本的画作风格一致,其他的元素没有发生变化。
输出图片:
当智东西让Qwen-Image-Edit将下面这幅书法中的“层”改为简体写法时,如输出图所示,Qwen-Image-Edit这次误将“穷”(标红框)字识别为了“层”,而没有将原本需要修改的字(标蓝框)改正。不过只能说中国文化博大精深,让大模型看草书属实有点为难它了。
输入图片:
输出图片:
Qwen-Image-Edit还支持视角转换、背景修改、添删细节等外观编辑。当我们输入一张小猴子卡通图片,提出“朝向左侧”的视角转换要求,Qwen-Image-Edit能够生成小猴子的侧面,可以说形象和场景完全保持一致,就像动画的前后两帧。我们还特意观察了下手脚的生成情况,没有出现类似“六根指头”的恐怖谷效应。
输入图片:
输出图片:
当我们输入一张女孩照片,并输入“将背景变为高原雪山”提示词,Qwen-Image-Edit快速更换了背景,值得一提的是女生身上的光感也切换到了外场状态,与内场的聚光灯效果有所区别,显得比较自然。
输入图片:
输出图片:
再来看看阿里官方公布的一些案例,以Qwen的吉祥物——水豚为例,在输入对应文字后,Qwen-Image-Edit输出了不同场景的水豚图片。
虽然编辑后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的形态一致性得到了完美保留。语义编辑功能可以让原创IP内容创作变得轻松便捷,且内容丰富多样。
团队还围绕16种MBTI性格类型设计了一系列编辑提示,基于这些提示生成了一套以吉祥物水豚为原型的MBTI主题表情包,这可以用于拓展IP的影响力。
新颖的视图合成是语义编辑的另一个关键应用场景。如下面的两个示例图所示,Qwen-Image-Edit不仅可以将物体旋转90度,还可以进行完整的180度旋转,让用户能够直接看到物体的背面。
语义编辑的另一个典型应用是风格转换。例如,给定一幅输入肖像,Qwen-Image-Edit可以轻松地将其转换为各种艺术风格,例如吉卜力工作室的风格。此功能在虚拟化身创建等应用中具有重要价值。
二、增删改特定元素,虚拟传达、模拟场景一键完成
除了语义编辑之外,外观编辑是另一种常见的图像编辑需求。外观编辑强调在添加、移除或修改特定元素时,保持图像的某些区域完全不变。开篇提到的案例展示了一个将招牌添加到场景中的案例。如图所示,Qwen-Image-Edit不仅成功插入了招牌,还生成了相应的反射。
下面这个例子演示了如何从图像中去除细发丝和其他小物体。
此外,图像中特定字母“n”的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。
外观编辑在调整人物背景或更换服装等场景中也有广泛的应用。下面的三幅图分别展示了这些实际用例。
三、精准文本编辑,链式修改书法错误
Qwen-Image-Edit的另一大亮点在于其精准的文本编辑能力,这源于Qwen-Image在文本渲染方面的功底。
以下两个案例生动地展现了Qwen-Image-Edit在英文文本编辑方面的性能:
Qwen-Image-Edit还可以直接编辑中文海报,不仅可以修改大标题文本,还可以对细小复杂的文本元素进行精确调整。
最后,通过一个具体的图像编辑示例,通义团队演示了如何使用链式编辑方法逐步纠正Qwen-Image生成的书法作品中的错误:
在这幅作品中,几个汉字存在生成错误,Qwen-Image-Edit可以逐步纠正这些错误。例如,用户可以在原始图像上绘制边界框来标记需要校正的区域,并指示Qwen-Image-Edit修复这些特定区域。在这里,演示者希望“稽”字能够正确地写在红色框内,而“亭”字能够准确地呈现在蓝色区域内。
然而,在实际操作中,“稽”字相对模糊,模型未能一次性将其正确纠正。“稽”字的右下角部分应该是“旨”,而不是“日”。此时,演示员进一步用红框突出显示“日”部分,指示Qwen-Image-Edit微调此细节,将其替换为“旨”。
通过这种链式、循序渐进的编辑方法,我们可以不断地纠正字符错误,直到达到理想的最终结果。
最终,演示员成功获取了完整正确的《兰亭集序》书法版本。
结语:AI图像编辑更精准,降低视觉创作门槛
通过体验,我们发现Qwen-Image-Edit具备较强大的语义和外观编辑功能。尽管在连续多轮修改中,Qwen-Image-Edit编辑的精准性和一致性仍有待提高,在草书等更复杂字体生成上有局限,并且使用次数有限制,但其目前已能实现大多物体增删、文字生成、角度转换等实用功能。
随着这一能力还在持续迭代,其有望推动图像生成领域的发展,降低视觉内容创作的技术门槛,并激发更多创新应用。
相关文章
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读
2025-08-199阅读