Qwen-Image-2.0 来了:全球前三,汉字渲染干翻 Nano Banana Pro

2026-02-11 11:45:35
文章摘要
评测全球第三,编辑全球第二:阿里图像 AI 这次认真了

AI 画图这件事,阿里是认真的。

刚刚,阿里巴巴正式发布了 Qwen-Image-2.0,千问系列最新的图像生成与编辑模型。这次发布有几个地方值得认真看:支持 1000 个 token 的超长提示词、2K 高分辨率输出,在全球图像生成评测中拿下第三名,而且在中文汉字渲染这件事上,直接干翻了谷歌的 Nano Banana Pro。

最关键的是,生图和编辑功能首次被统一进了同一个模型里。以前你可能需要两个工具来回切换,现在一个搞定。

目前,阿里云百炼上已开通API邀测,开发者也可直接通过Qwen Chat(https://chat.qwen.ai/)免费体验新模型。



一、全球第三,编辑榜第二:成绩单先看一眼


先说成绩,客观的。

在 AI Arena 这个全球图像模型评测平台上,Qwen-Image-2.0 在文生图项目中得了 1029 分,排名全球第三。图片编辑项目得了 1034 分,排名第二,仅次于谷歌 Nano Banana Pro。

第三名听着还不是最顶,但你得知道这个赛道的竞争对手是谁:Midjourney、Stable Diffusion、DALL·E、谷歌 Imagen。能在这群老玩家中间拿到前三,说明 Qwen-Image-2.0 确实有实力。

而且在图片编辑这个更细分的领域,它的分数直逼第一——距离谷歌只差一点点。



二、生图 + 编辑二合一,这件事为什么重要?


Qwen-Image-2.0 是在两个前代模型——Qwen-Image(专门生图)和 Qwen-Image-Edit(专门编辑)——的基础上全新升级的。这次把两个功能合并进一个模型,架构还更轻了。

这对用户来说意味着什么?

以前的典型流程是:先用生图模型出图 → 发现不满意 → 换到编辑模型改 → 改完再回去对比。两个工具来回切,参数还不互通,经常改着改着就糊了。

现在一个模型全包了。从零生成到精细修改,在同一个环境里完成,上下文不丢失,风格更连贯。



三、1000 个 token 的提示词,能干什么?


1000 个 token 的提示词限制,是这次升级里很容易被忽视、但实际上非常关键的一点。

很多图像模型的提示词上限只有几十到几百个 token,你想描述一个复杂场景,经常得掐着字数写,写到后面发现关键信息被截掉了。

1000 个 token 意味着你可以像写文章一样描述需求:交代背景、指定风格、描述细节、说明用途、列出禁忌——一次说清楚。

这带来了几类以前很难做到的应用场景:

复杂排版类内容:专业 PPT 配图、学术论文格式图、品牌海报——这类内容需要同时控制文字排布、视觉风格、色彩规范,提示词短了根本说不清楚。

大段文字渲染:让模型把《兰亭集序》几百个字以小楷字体准确渲染到图片里,这件事以前几乎不可能做到,现在 Qwen-Image-2.0 能搞定。

多格漫画创作:



四、中文渲染这件事,它赢了谷歌


AI 画图里有个长期存在的痛点:中文渲染。

你用英文模型生成图片,想在上面加中文字,经常出来的是乱码、变形或者莫名其妙的火星文。就算是专门训练过中文的模型,字写多了也容易糊掉或者漏字。

Qwen-Image-2.0 在这件事上下了重功夫。它不只能渲染中文字,还能支持多种字体,写得又多又准。官方给出的示例里,楷体、宋体、小楷都能清晰渲染,而且文字数量上比谷歌 Nano Banana Pro 还要更强。

对于需要做中文海报、商品包装、书法配图的用户来说,这个能力是实打实的刚需。

Nano Banana Pro生成:(能看出来有些字依然不清晰)

生成的图像

Qwen-Image-2.0成品图:



五、图片编辑到底能做什么?几个实际用法


光说生图,Qwen-Image-2.0 的编辑能力同样值得单独说一说。

你可以上传一张或几张照片,然后:

九宫格多姿势自拍:上传一张照片,模型生成九宫格组图,每格换一个拍照姿势和角度,效果统一、风格连贯。

全景式人物概念拆解:把一张人物图像拆解成多个视角或概念呈现,适合角色设计、服装展示等场景。

多种创意风格变换:同一张素材,一键生成写实、插画、水彩、赛博朋克等不同风格版本。

诗词配图:输入诗词内容,模型根据意境生成对应配图,书法字体、场景氛围一并处理好。

Image 2

帮我在画面上加一首诗

Image 3



六、生图质感提升到底有多明显?


除了功能,Qwen-Image-2.0 在画面质感上也有明显提升。

官方给出的说法是:小至老人脸上的皱纹,大到浩瀚宇宙,模型生成的人物、自然景观、建筑等常见题材都极其逼真。

2K 分辨率是这次支持的最高输出规格。在这个分辨率下,人物皮肤的毛孔细节、远景建筑的窗户纹理、风景图里的树叶层次,都能清晰呈现,放大查看也不会糊成一片。

对于要做商业物料、内容创作的用户来说,这个分辨率已经可以直接用于印刷和展示了。



写在最后:阿里在图像 AI 这条路上走了多远?


Qwen-Image-2.0 的发布,代表阿里在图像 AI 这条赛道上完成了一次重要升级。

全球前三的评测成绩说明它不只是国内领先,放到国际市场也有竞争力。而中文渲染超越谷歌这件事,对中文内容创作者来说是个好消息——这是国际模型很难在短期内追上的本土优势。

更有意思的是,生图与编辑合并这个方向,其实代表了一种产品思路的转变:从单功能工具走向全流程工作台。你不需要在多个模型之间跳来跳去,从想法到成品,在一个地方搞定。

当然,评测成绩是一回事,实际用起来的体验是另一回事。1000 个 token 的提示词上限够不够用?2K 分辨率在各种场景下稳不稳定?编辑功能在处理复杂指令时会不会出岔子?

Qwen Chat 已经免费开放,感兴趣的直接去试就知道了。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
图像生成与编辑
多模态大模型
模型优化