文章摘要
AI图像合成中,将角色资产放入场景时易出现比例失调问题,这是因AI对图像语义与物理空间关联缺乏认知。文章结合主流工具底层逻辑,探讨图生图比例失调原因,如场景与角色语义拉扯、缺乏空间锚点等,还介绍多人场景的多框透视法和重叠选框法则,提出提示词定内容、选框/语义参照定比例的创作思路。

当你尝试将一个设计好的角色资产放入一个宏大的概念场景中,AI生成的画面要么让角色像一个巨石强森般突兀地顶满屏幕,破坏了场景的宏大感;要么将角色缩成一个模糊不清的色块,丢在了角落里。

这种现象在AI图像合成中十分常见。它并非完全是随机的失误,而是由于AI在融合独立的图像资产与新的空间环境时,对两者之间的语义与物理空间关联缺乏直观的认知。

为了帮助广大短剧、漫剧创作者解决分镜制作中的角色入景难题,本期内容将结合 ChatGPT Image 2 AutoNano Banana Pro 等主流工具的底层逻辑,分享如何通过语义参照与区域控制(局部重绘/多框控制)等方法,改善图生图中的比例失调问题,让角色更自然地融入场景。

1.PNG

图生图合成中的空间认知障碍


在进入实操前,我们先来探讨为什么AI在进行“图生图”时难以把握合理的比例。


1.1 场景优先级与角色细节的语义拉扯

现在的文生图模型,其注意力机制在处理单一画面的整体构图时已经相当智能。但当你使用图生图功能时,实际上是强制要求AI将两个原本独立的、具有不同视觉上下文的图像进行融合。


  • 场景资产(图1):清晨迷雾缭绕的深山竹林,晨光穿透竹叶,一条石板小路向深处延伸,极具中式美学的纵深感。
  • 角色资产(图2):一名身穿白红相间轻盈古装、手持长剑的孤傲女剑客。


23.jpg


24.jpg



场景提示词:

A serene bamboo forest at dawn, thick mist hovering near the ground, golden shafts of morning sunlight piercing through the bamboo leaves, a winding stone path fading into the fog, traditional Chinese ink painting aesthetic mixed with cinematic photorealism, Unreal Engine 5 render, high depth of field.(译:清晨宁静的竹林,地面上飘荡着浓雾,金色的晨光穿透竹叶,一条弯曲的石板路消失在雾气中,中式写意与电影级写实的结合,虚幻引擎5渲染,高景深。


角色三视图提示词(用于保持角色一致性):

4-panel character concept sheet on a clean light gray background: left panel is a close-up headshot portrait, right 3 panels are full-body views (front, side, back). An elegant ancient Chinese female swordmaster, wearing flowing white and crimson silk robes, a silver hairpin in her hair, holding a classic long sword with an ornate hilt, light leather arm guards. Highly detailed costume texture, realistic fabric folds, cinematic studio lighting, photorealistic character design.(译:干净浅灰色背景上的4格角色概念图:左侧为头部特写,右侧3格为全身视图(正、侧、背)。一位优雅的中国古代女剑客,身穿飘逸的白红相间丝绸长袍,发间插着银簪,手持一把配有华丽剑柄的经典长剑,戴着轻质皮革护臂。高度精细的服装纹理,逼真的面料褶皱,电影工作室光影,写实角色设计。


1.2 缺乏空间锚点导致的比例偏离

在实际排版分镜时,创作者的意图通常是让女剑客站在竹林深处的石板路上,形成“曲径通幽、大侠隐逸”的远景或中景镜头。

  1. 然而,在进行图生图融合时,如果没有明确的约束,AI为了完整保留女剑客复杂的衣褶、发饰和长剑细节,往往会倾向于在画面正中央生成一个巨大的角色,几乎把背景的竹林和石板路全部遮挡。这就导致原本应该显得深邃、空灵的竹林,在视觉上显得狭窄局促,失去了武侠故事应有的意境美。

27.png

融合提示词:将图二的人物放到图一中,光影重构

2.PNG

多角色分镜构建——深度与互动的多框控制


此前我们搞定了单人角色的场景摆放问题,那要是想在背景里加入多人队伍该如何处理?

就以光影暗沉、氛围感拉满的奇幻冒险酒馆为例,试着放入战士、法师、刺客三人小队。单纯堆砌关键词效果往往不尽人意,画面里人物要么扎堆拥挤,要么完全违背近大远小的透视规则。


28.png


2.1 运用近大远小的多框透视法

要打破生硬的并排构图,可以通过在画面不同深度绘制多个选框来引导AI。

ChatGPT Image 2 Nano Banana Pro 非常聪明,只要你把框的大小和高低位置错开,它在生成时会自动脑补出空间的Z轴(深度)。最前方大框里的战士连盔甲上的划痕都清晰可见,而后方小框里的刺客会自动带上酒馆角落的阴影和景深模糊,完全融入背景!


e2af85b7-895a-411d-a98c-cb16a9753ae5.jpg


30.png


多框融合提示词示例:

将角色自然的放在蓝框处,图2角色自然的放在绿框处,图3的角色自然的站在红框处,姿态各异,动作随便,最后去掉

3.2 互动分镜中的重叠选框法则

想要做出人物互动画面,就得营造出对抗呼应的画面张力。好比在这间冒险酒馆中,创作酒保递酒给战士、两名NPC私下低语这类互动场景即可。


25.png

酒保三视图


记住这两个框千万不能分开:


飞书文档 - 图片


飞书文档 - 图片


互动融合提示词示例:

红色框与绿色框处图酒保正把一杯麦酒递给图2战士,最后去掉

3.png

结语

在当前的AI视觉创作流程中,相较于一味堆砌复杂的词藻去试探AI的随机表现,提示词定内容,选框/语义参照定比例是一个更加稳健且可控的创作思路。


对于短剧和漫剧的创作者而言,熟练运用这一套视觉引导逻辑,可以在制作角色入景、多人同框以及交互分镜时,有效降低画面的塑料感与透视错乱,让每一帧分镜都更贴近故事所需的镜头表达。

2.gif

以上内容不代表本平台立场,仅供读者参考