画一张图要花3块钱：ChatGPT 2.0图像版发了，AI画图告别开盲盒

在黄河边醒酒

2026-04-22 17:50:00

ChatGPT

图像生成与编辑

多模态大模型

模型部署

社交媒体营销

短视频制作

4月22日大半夜，OpenAI把ChatGPT的画图功能更新到了2.0版本。大家看热闹的心态早就变了。早两年大伙还会对着AI画的图惊呼逼真，现在大家只关心一件事，这玩意能不能把图里的字给拼对。

以前用AI画个带字的招牌，出来的全是不认识的火星文。这次情况有了变化。

图里的汉字终于能看懂了

以往图像生成模型在英语及拉丁字母语言中表现更稳定，但在其他语言，尤其是复杂或密集文本时精度较低。

Images 2.0 突破了这一限制，在多语言理解上显著增强，尤其是在日语、韩语、中文、印地语与孟加拉语的文本渲染方面有明显提升。它不仅能正确生成非英语文本，还能保证语言表达自然流畅。

Generated with ChatGPT Images 2.0, this manga-style comic page shows an OpenAI researcher demonstrating multilingual text rendering improvements, featuring detailed illustrated panels, translated city posters, smartphone chats, and celebratory messages in many languages.

外国记者还搞了个花活，让模型画一张好莱坞明星甜茶的中国粉丝应援海报。画面里塞满了饺子、奶茶和各种中文字符。找人翻译后发现里面混了点日语，有些词也透着一股翻译腔。但在视觉上看过去，已经过了能凑合用的及格线。

以前那种连汉字偏旁部首都能拆乱的尴尬情况现在少多了。只要给的提示词到位，大模型确实学会了怎么排版文字。

画画之前先动脑子

这次升级最有意思的地方，是它加了个思考模式。

以前你给个提示词，AI就跟个闭着眼的画师一样，一秒钟把图甩你脸上，全靠碰运气。现在它学会先停下来想想了。

在直播中，OpenAI 图像研究团队的成员陈博远展示了一个案例，他给出提示词：「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」

结果生成的海报完全符合提示词，且在细节上也能够做到精准。

「它非常擅长遵循非常详细的指令，所以如果你有非常具体的品牌语言、设计美学 —— 所有那些对创意工作至关重要的东西 —— 你都可以使用 ChatGPT 来创建和完善你的想法，从而得到你想要的结果。」陈博远说道。

在 ChatGPT 中启用 thinking 模型后，系统会在后台进行更深入的理解与执行。它可以联网检索信息，将上传材料转化为清晰的视觉说明，并在生成前对图像结构进行推理。

在这种模式下，Images 2.0 更像一个视觉思考伙伴，帮助你将初步概念推进为完整成品，大幅降低工作量。

一口气出8张图，搞连载的轻松了

对于做自媒体和画漫画的人来说，新功能很实在。现在一个指令下去，最多能一口气出8张图。

关键是这8张图里的主角长得一模一样。

用AI画漫画最头疼的就是角色连贯性。上一格主角是个大眼萌妹，下一格可能就成了大妈，每次都得祈祷模型别忘设定。现在老板奥特曼自己都在社交平台上发了四格漫画，内容是他和网友满世界找显卡的故事。人物从头到尾都没变样。

搞绘本和社交素材配图的人，以后在这个环节上能省下大把时间。不用再手动去一张张拼接对齐了。

专家打假：看着像真家伙，但别拿来救命

新模型伪造画面的能力上了一个台阶。你随便输入一句话，让它生成一张跟GPT聊天的截图，或者一张TikTok短视频的界面，出来的图能骗过一大批网友的眼睛。

这种逼真程度放在某些专业领域就容易出事。

有个手外科医生拿它做了个非正式测试。他让AI画一张手部X光片，画出来的图质量特别好，连复杂的腕骨结构都搞得有模有样。医生自己都说，第一眼看过去很难分清真假。医疗图像里看起来对和实际上对之间的差距越来越小。

但他紧接着让AI做一份腕管综合征的医疗宣传单，毛病就暴露了。传单设计得挺好看，解剖结构却全画错了，根本没法给病人看。

这事给大伙提了个醒。AI现在是个很会伪装的临摹高手，它知道什么样子看起来专业，但它压根不懂里面的科学原理。拿来做个广告海报还行，真要是涉及到医疗诊断或者工业制造，还是得靠人眼来把关。

算算成本，企业愿不愿意当这个冤大头

在各种匿名平台的盲测榜单上，新版ChatGPT图像模型的分数甩了同行一大截。不管是谷歌前阵子发的Nano Banana 2，还是其他几家生图工具，在理解复杂指令这块目前都落了下风。

好用是好用，价格也摆在这里。

普通用户用基础版免费凑合看，真想体验那种想好了再画的高级模式，得去买高级会员。对开发者来说，通过接口调用生成一张高分辨率的复杂图片，大概要花0.4美元。

折合人民币差不多3块钱一张图。普通人偶尔玩玩没啥，要是电商公司或者营销团队一天要批量出几万张图，一个月下来这是一笔几十万的硬支出。

这么实测观察下来，官方的总结并非吹牛不打草稿:

为图像生成带来了划时代的细致度和保真度。在API中，ChatGPT Images 2.0最高支持生成2K分辨率的图像。
具备更强的多语言理解能力。
支持最宽3:1、最窄1:3的图片比例。
引入更新的世界知识，知识截止时间为2025年12月。
一次提示最多可生成8个输出，并且图中的角色和物体能保持连续性。

另外，在大模型竞技场上，ChatGPT Images 2.0已登顶第一，并且在文本到图像任务中，断层领先第二名Nano Banana 2 240分。

你试过 ChatGPT Images 2.0 了吗？感觉如何？

以上内容不代表本平台立场，仅供读者参考