可灵 AI 多图参考封神玩法！吐蕃使者闯三亚10秒成片｜主体框选+融合全攻略

2025-12-22 16:15:55

可灵AI

视频生成大模型

图像生成

短视频制作

AI工具推荐

很多玩儿新媒体的宝子，想用 AI 做视频，但是都苦恼不懂提示词，不懂专业术语，比如什么运镜、近景、宫崎骏风格等等，导致积极性降低，只能望洋兴叹，其实 AI 发展至今，在工具使用的步骤上已经简化了很多了，今天我要介绍的这款工具的功能，就非常适合新手，你即使不懂提示词都没关系，都能做出你想要的视频出来。

你们想过《步辇图》里面的吐蕃使者会来到现代吗？别慌！今天我用可灵的「多图参考」+「主体框选」功能，把《步辇图》里的吐蕃使者“抠”出来，让他穿越到三亚公路，10秒就能出电影质感的短片！全程零专业提示词，新手跟着抄作业就行，还附带“镜头推进失败”的解决方案～

成片核心亮点：步辇图红衣使者+三亚现代街景，冷暖色调碰撞出孤独感；主观跟拍视角+微表情细节，AI合成却自带电影感；可灵自动音效匹配脚步声+交谈声，氛围感拉满。

一、核心逻辑：为啥可灵这两个功能能实现“穿越感”？

很多人用可灵只敢单图生视频，却忽略了「多图参考+主体框选」的组合威力——前者负责“素材无缝拼接”，后者负责“锁定核心不跑偏”，比纯文本生视频精准10倍！

功能模块	核心作用（针对本次创作）	比传统方法优势
多图参考	融合“吐蕃使者抠图”+“三亚公路图”，自动匹配光影色调	不用手动调色合成，AI直接实现“古画人物融入现代场景”
主体框选	锁定红衣使者为核心	不用反复描述服饰细节，AI直接复刻古画服饰纹理

二、5步实操：从抠图到成片，每步都有避坑点（附优化方案）

我以“《步辇图》吐蕃使者穿越三亚”为例，把关键操作和你遇到的“镜头推进失败”问题全拆解，直接对应表格抄参数！

Step1：精准抠图——古画主体“不粘背景”的关键

核心目标：只抠“红衣使者”单个主体，避免带侍从或古画背景，否则会和三亚街景违和。

操作环节	具体步骤	避坑点（我踩过的雷）
素材来源	故宫名画记官网下载《步辇图》高清扫描件（像素3000+，细节清晰）	别用低清网图，否则抠图后服饰纹理模糊，AI生成会变形
抠图工具	PS快速选择工具+调整边缘（边缘检测半径5px，平滑2px）	抠完放大200%检查，避免使者衣摆、发饰处粘古画底色

Step2：多图参考上传——背景和主体“视角匹配”是关键

三亚公路图的视角直接影响“主观镜头”效果，选图和上传顺序有讲究！

素材准备：找“行人视角”的三亚临街公路图（要求：公路在画面中下部，两侧是多层楼房，光线明亮，和提示词“主观镜头”匹配），推荐小红书搜“三亚街景实拍”下载高清图；

可灵操作：打开可灵「视频创作」→ 选「多图参考」→ 先传“三亚公路图”（点击“设为背景参考”）→ 再传“吐蕃使者PNG”（点击“设为主体参考”）→ 勾选“保持主体比例”“自动光影融合”。

Step3：主体框选——锁定红衣使者，AI不跑偏

这步是避免“使者变路人”的核心，精准框选+备注细节缺一不可：

上传后在可灵画布中，点击图片的“参考主体”，进入选框后点击“主体”，选择「矩形框选工具」精准框选红衣使者全身；这里需要注意，因为我上传的图片人物图像太小了，所以 AI 识别不了人物的穿着和人物的面部表情，这里如果你能选就选，能保证出来的人物不会失真。

Step4：提示词撰写——解决“镜头推进失败”的核心方案

这里我给了两版本的提示词，因为我在使用到“视频延长”功能时，镜头提示词没给到位，所以没有精准的执行，但好在视频整体的意境是没问题的。

版本	时长	提示词内容	效果差异
初始版本（用户版）	5S+5S	第一段：一位神情凝重、风尘仆仆的吐蕃使者，孤身一人走在人行道上，左右打量着两边的房子。显得很孤独，电影感写实风格，冷暖色调对比，主观镜头。第二段：吐蕃使者停下脚步，镜头缓慢推进，望着周围的一切，脸上露出了困惑又若有所思的表情。	主体清晰，但第二段无镜头推进，表情模糊
优化版本（实操版）	5S+5S	第一段：一位神情凝重、风尘仆仆的吐蕃使者，孤身走在三亚临街人行道上，左右缓慢转头打量两侧现代楼房，身影孤独；电影感写实风格，冷暖色调对比（使者红衣暖调，背景楼房冷调），主观跟拍视角（镜头高度与使者肩部平齐，跟随行走节奏轻微晃动）。第二段：吐蕃使者停下脚步，身体微侧转向右侧楼房，眼神聚焦楼房窗户；镜头从全景缓慢推进至使者面部（推进速度0.5倍，焦点锁定使者面部，背景轻微虚化），使者脸上露出困惑又若有所思的微表情，红衣纹理与背景光影统一。	第一段有跟拍晃动质感，第二段镜头精准推进，面部微表情清晰

这是第一段提示词后生成的视频，因为太大，我直接转为GIF图了：

因为我要的是电影写实风格，所以 AI 将吐蕃使者变为了现代人，这里好理解，但是其实服饰和造型上面还是和图片上有点区别，这也不能怪 AI ，因为确实人物图像太小，AI 无法识别到人物的面部特征和服饰，但是颜色还是保留的红色。

然后我用了视频的延长功能：

填写了第二段提示词后生成视频如下：

可以看到视频里面是自带音效的，使者走路的声音、周围人物的交谈声等等，因为这里我用了可灵自带的音效功能。

Step5：音效搭配——自动音效+手动微调，氛围感翻倍

可灵的自动音效已经很贴合场景，但微调后更有电影感，操作超简单：

自动匹配：生成视频后，点击底部「音效」按钮，可灵会自动匹配“人行道脚步声（40%音量）”，基本不用大改；

导出设置：选择“1080P清晰度+60帧”，成片更流畅。

三、3个高阶技巧：新手必避的坑，我替你踩过了！

抠图要“独”：只抠单个主体！别贪多抠整个使者团，否则 AI 会把侍从也放进画面，失去“孤独穿越”的核心情绪；
背景要“贴”：背景视角必须和提示词“主观镜头”匹配！比如要“跟拍视角”就选行人视角图，别用高空俯拍，否则会出现“镜头穿帮”；
提示词要“细”：镜头描述加“参数”（推进速度0.5倍）、“焦点”（锁定面部），光影加“对比方式”，AI生成才精准。

四、题材延展：这招能套用到所有“古今碰撞”视频

不止《步辇图》，所有古画、老照片都能这么玩！我整理了3个高流量题材的适配方案，直接换素材就能用：

高流量题材	古画/素材主体	现代背景推荐	核心提示词方向
簪花仕女逛网红街	《簪花仕女图》仕女（抠图时保留团扇）	成都太古里街景（行人视角）	仕女手持团扇漫步，好奇打量街边店铺，暖色调为主，慢镜头
兵马俑站西安城墙	兵马俑高清实拍图（单个士兵）	西安明城墙观景台（平视视角）	兵马俑直立凝望远方城墙，夕阳洒在盔甲上，电影感光影，全景转特写
古人喝奶茶	《韩熙载夜宴图》侍女（手持空杯）	网红奶茶店吧台（第一视角）	侍女手持现代奶茶杯，低头观察杯身图案，表情好奇，室内暖光

五、结尾：可灵的核心不是“合成”，是“讲好小故事”

其实这招的精髓不是炫技，而是用“古画主体+现代场景”的反差制造故事感——吐蕃使者看到现代楼房的困惑、仕女逛网红街的好奇，这些细节才是打动人的关键。可灵的功能只是工具，真正让视频出圈的，是你赋予“古人”的情绪和视角。

你手里有什么想“活化”的古画？评论区发图，也可以将你的成片放评论区，我们一起来学习进步~

以上内容不代表本平台立场，仅供读者参考