画一张图要花3块钱:ChatGPT 2.0图像版发了,AI画图告别开盲盒

2026-04-22 16:53:50

4月22日大半夜,OpenAI把ChatGPT的画图功能更新到了2.0版本。大家看热闹的心态早就变了。早两年大伙还会对着AI画的图惊呼逼真,现在大家只关心一件事,这玩意能不能把图里的字给拼对。

以前用AI画个带字的招牌,出来的全是不认识的火星文。这次情况有了变化。

图里的汉字终于能看懂了


以往图像生成模型在英语及拉丁字母语言中表现更稳定,但在其他语言,尤其是复杂或密集文本时精度较低。

Images 2.0 突破了这一限制,在多语言理解上显著增强,尤其是在日语、韩语、中文、印地语与孟加拉语的文本渲染方面有明显提升。它不仅能正确生成非英语文本,还能保证语言表达自然流畅。

Generated with ChatGPT Images 2.0, this manga-style comic page shows an OpenAI researcher demonstrating multilingual text rendering improvements, featuring detailed illustrated panels, translated city posters, smartphone chats, and celebratory messages in many languages.

外国记者还搞了个花活,让模型画一张好莱坞明星甜茶的中国粉丝应援海报。画面里塞满了饺子、奶茶和各种中文字符。找人翻译后发现里面混了点日语,有些词也透着一股翻译腔。但在视觉上看过去,已经过了能凑合用的及格线。

以前那种连汉字偏旁部首都能拆乱的尴尬情况现在少多了。只要给的提示词到位,大模型确实学会了怎么排版文字。

画画之前先动脑子


这次升级最有意思的地方,是它加了个思考模式。

以前你给个提示词,AI就跟个闭着眼的画师一样,一秒钟把图甩你脸上,全靠碰运气。现在它学会先停下来想想了。

在直播中,OpenAI 图像研究团队的成员陈博远展示了一个案例,他给出提示词:「Make a artisitic marketing poster for a fictional OpenAI bakery.The poster should be inJapanese language.」

结果生成的海报完全符合提示词,且在细节上也能够做到精准。

「它非常擅长遵循非常详细的指令,所以如果你有非常具体的品牌语言、设计美学 —— 所有那些对创意工作至关重要的东西 —— 你都可以使用 ChatGPT 来创建和完善你的想法,从而得到你想要的结果。」陈博远说道。

在 ChatGPT 中启用 thinking 模型后,系统会在后台进行更深入的理解与执行。它可以联网检索信息,将上传材料转化为清晰的视觉说明,并在生成前对图像结构进行推理。

在这种模式下,Images 2.0 更像一个视觉思考伙伴,帮助你将初步概念推进为完整成品,大幅降低工作量。

一口气出8张图,搞连载的轻松了


对于做自媒体和画漫画的人来说,新功能很实在。现在一个指令下去,最多能一口气出8张图。

关键是这8张图里的主角长得一模一样。

用AI画漫画最头疼的就是角色连贯性。上一格主角是个大眼萌妹,下一格可能就成了大妈,每次都得祈祷模型别忘设定。现在老板奥特曼自己都在社交平台上发了四格漫画,内容是他和网友满世界找显卡的故事。人物从头到尾都没变样。

搞绘本和社交素材配图的人,以后在这个环节上能省下大把时间。不用再手动去一张张拼接对齐了。

专家打假:看着像真家伙,但别拿来救命


新模型伪造画面的能力上了一个台阶。你随便输入一句话,让它生成一张跟GPT聊天的截图,或者一张TikTok短视频的界面,出来的图能骗过一大批网友的眼睛。

这种逼真程度放在某些专业领域就容易出事。

有个手外科医生拿它做了个非正式测试。他让AI画一张手部X光片,画出来的图质量特别好,连复杂的腕骨结构都搞得有模有样。医生自己都说,第一眼看过去很难分清真假。医疗图像里看起来对和实际上对之间的差距越来越小。

但他紧接着让AI做一份腕管综合征的医疗宣传单,毛病就暴露了。传单设计得挺好看,解剖结构却全画错了,根本没法给病人看。

这事给大伙提了个醒。AI现在是个很会伪装的临摹高手,它知道什么样子看起来专业,但它压根不懂里面的科学原理。拿来做个广告海报还行,真要是涉及到医疗诊断或者工业制造,还是得靠人眼来把关。

算算成本,企业愿不愿意当这个冤大头


在各种匿名平台的盲测榜单上,新版ChatGPT图像模型的分数甩了同行一大截。不管是谷歌前阵子发的Nano Banana 2,还是其他几家生图工具,在理解复杂指令这块目前都落了下风。

好用是好用,价格也摆在这里。

普通用户用基础版免费凑合看,真想体验那种想好了再画的高级模式,得去买高级会员。对开发者来说,通过接口调用生成一张高分辨率的复杂图片,大概要花0.4美元。

折合人民币差不多3块钱一张图。普通人偶尔玩玩没啥,要是电商公司或者营销团队一天要批量出几万张图,一个月下来这是一笔几十万的硬支出。

这么实测观察下来,官方的总结并非吹牛不打草稿:

  1. 为图像生成带来了划时代的细致度和保真度。在API中,ChatGPT Images 2.0最高支持生成2K分辨率的图像。
  2. 具备更强的多语言理解能力。
  3. 支持最宽3:1、最窄1:3的图片比例。
  4. 引入更新的世界知识,知识截止时间为2025年12月。
  5. 一次提示最多可生成8个输出,并且图中的角色和物体能保持连续性。

另外,在大模型竞技场上,ChatGPT Images 2.0已登顶第一,并且在文本到图像任务中,断层领先第二名Nano Banana 2 240分。

你试过 ChatGPT Images 2.0 了吗?感觉如何?


声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
ChatGPT
图像生成与编辑
多模态大模型
模型部署
社交媒体营销
短视频制作