GPT Image 1.5 vs Nano Banana Pro:两大绘图模型深度横评

2025-12-18 11:15:15
文章摘要
本文实测了 GPT Image 1.5 和谷歌 Nano Banana Pro,对比速度、理解等项。

OpenAI 近日正式推出了 GPT Image 1.5,而早些时候,谷歌 Gemini 旗下的 Nano Banana Pro 也在社区内引发了广泛关注。

很多人都想知道哪个模型更强,这才有了这次的测试。本测试不同于生成趣味图像的娱乐向测试,而是基于多项严格的测试项目,分别对比两个模型在速度、理解能力、本地化支持及编辑功能上的区别。

一、 速度与交互体验:ChatGPT 胜利


DALL·E 3 与 GPT Image 1.5 生成速度对比

此前,DALL·E 3 的生成等待时间较长,影响了工作流的连贯性。本次 GPT Image 1.5 的核心进步在于 生成速度提升了约 4 倍

输入相同的提示词:

A candid phone photo of a ginger cat wearing blue aviators


左:GPT Image 1.5  |  右:Nano Banana Pro

GPT Image 1.5 能够实现近乎即时的渲染反馈。此外,OpenAI 优化了交互界面,在输入栏下方新增了风格预设功能。用户可以直接选择 3D 渲染、手绘、极简 等风格,无需手动输入复杂的参数指令。这种改进降低了使用门槛,适合追求快速产出的用户。

相比之下,谷歌的 Nano Banana Pro 在画质细腻度上表现突出,其生成的图像往往具有更高的动态范围和纹理细节,但在生成速度和交互便捷性上略逊一筹。

二、 语义理解与常识推断:谷歌 胜利

输入相同的提示词:

A cinematic silhouette shot of local fishermen lining the Galata Bridge in Istanbul during sunset. In the foreground, a weary fisherman leans against the railing, looking at the sea. The background features the hazy, dreamlike silhouette of the Süleymaniye Mosque and seagulls flying over the Golden Horn. Warm orange and deep blue color palette. Shot on Sony A7R IV with Sony FE 85mm f/1.4 GM lens at f/1.8. Atmospheric haze, emotional storytelling, award-winning travel photography.


左:GPT Image 1.5  |  右:Nano Banana Pro

测试要求生成一位疲惫的渔民倚靠在栏杆上,眺望着大海的顶级摄影作品。

  • GPT Image 1.5: 光线运用不错,但渔民站在另一侧是什么情况,疑似要跳海,存在常识逻辑问题
  • Nano Banana Pro: 准确还原了提示词要求的美学风格,环境特征也高度符合伊斯坦布尔的清真寺背景。

测试结论: 在涉及复杂常识、特定文化符号、影视 IP 的理解上,Nano Banana Pro 表现更为精准

三、 多语言与排版能力:谷歌胜利

对于需要生成包含文字的图像(如海报、电商素材)的国内用户,模型对中文字符的支持至关重要。

输入相同的提示词:

Hyper-realistic 3D isometric masterpiece, set against a magnificent, endless traditional ink-wash historical scroll painting unfurling across the background. The scene visualizes the historical lineage and cultural heritage of Forbidden City, featuring its most iconic ancient architecture and landmarks rising dynamically from the scroll. • Composition: The scroll flows through the space like a river of time. The landscape creates a panoramic timeline. • Visual Effect: 2D black ink brushstrokes on the paper surface morph seamlessly into high-fidelity 3D solid structures, realistic materials, and vibrant colors. • Details: Faded ancient parchment texture, floating historical calligraphy characters, red seal stamps, atmospheric clouds and fog wrapping around the monuments. • Lighting: Epic golden hour cinematic lighting illuminating the 3D structures, contrasting with the monochrome ink background. • Specs: 8K resolution, depth of field, Unreal Engine 5 render, grand scale. --ar 16:9 --stylize 350 --no flat, simple, cartoon, borders, frame, table, modern buildings


左:GPT Image 1.5  |  右:Nano Banana Pro

生成紫禁城 3D 画卷 测试中:

  • GPT Image 1.5: 渲染的每一个汉字都是错误的,而且对于皇室宫殿来说,主要殿宇沿南北轴线排列是最基本的设计原则,在文化逻辑上存在误解。但画面的创造力十足,流畅的卷轴、朦胧的氛围、大胆的色彩,就个人而言,这个水墨动画场景比 Nano Banana Pro 更好看。
  • Nano Banana Pro: 在尊重文化准确性和建筑逻辑方面做得更好,因为它能利用 Google 搜索的知识库。

此外,在生成复杂的场景时,Nano Banana Pro 在底纹细节和文字排版的清晰度上也优于 GPT Image 1.5


左:GPT Image 1.5  |  右:Nano Banana Pro

四、 局部重绘与连续编辑稳定性


GPT Image 1.5 连续编辑演示

连续编辑能力是衡量模型是否具备生产力属性的关键指标。我们对同一张人物照片进行了 5 轮连续修改指令(如更换背景、添加配饰、更改服装等)。

  • 指令执行: 两款模型均能准确理解并执行“修改”指令,而非重新生成一张完全不同的图。
  • 一致性保持: 在进行到第 5 轮修改时,两个模型都出现了人物面部特征丢失的问题(即人物不一致)。但在多人物场景的测试中,GPT Image 1.5 在保持人物特征稳定性上略微领先

五、 信息指令遵循:ChatGPT 胜利

输入相同的提示词:

A highly detailed exploded view technical diagram of an iPhone showing all internal components separated and floating in precise alignment, display screen at top, logic board with A-series chip in center, battery pack, camera modules with lenses, Lightning port connector, speaker grills, antenna bands, glass back panel, aluminum frame, tiny screws and connectors, each part labeled with technical annotations and measurement lines, clean white background, isometric engineering perspective, blueprint style with subtle grid, professional technical illustration, photorealistic components with metallic and glass textures, surgical precision layout, modern industrial design aesthetic, 8k detail


左:GPT Image 1.5  |  右:Nano Banana Pro

在生成结构化内容方面,如上面这个“制作 iPhone 爆炸图技术图”:

  • GPT Image 1.5: 展现了极强的指令遵循能力。其生成的技术图结构逻辑清晰,文字排版规整。
  • Nano Banana Pro: 在处理复杂的逻辑结构和长文本排版时,布局一板一眼,个人更喜欢 GPT 这种有美化的布局。

总结

综合各项测试结果,两款模型各有所长:

1. Nano Banana Pro

  • 优势: 图像画质极高,光影真实感强;对现实世界(物理规律、文化背景、特定 IP)的理解更为深刻;多语言文字渲染能力优秀
  • 适用人群: 设计师、创意工作者、需要生成高精度电商图或海报的用户。

2. GPT Image 1.5

  • 优势: 生成速度极快,交互体验流畅;指令遵循能力强,擅长生成逻辑图表和处理复杂的结构化要求;在多轮对话中的稳定性较好。
  • 适用人群: 办公人员、需要快速将想法可视化的普通用户。
声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
图像生成与编辑
多模态大模型