可灵 AI 多图参考封神玩法!吐蕃使者闯三亚10秒成片|主体框选+融合全攻略
很多玩儿新媒体的宝子,想用 AI 做视频,但是都苦恼不懂提示词,不懂专业术语,比如什么运镜、近景、宫崎骏风格等等,导致积极性降低,只能望洋兴叹,其实 AI 发展至今,在工具使用的步骤上已经简化了很多了,今天我要介绍的这款工具的功能,就非常适合新手,你即使不懂提示词都没关系,都能做出你想要的视频出来。
你们想过《步辇图》里面的吐蕃使者会来到现代吗?别慌!今天我用可灵的「多图参考」+「主体框选」功能,把《步辇图》里的吐蕃使者“抠”出来,让他穿越到三亚公路,10秒就能出电影质感的短片!全程零专业提示词,新手跟着抄作业就行,还附带“镜头推进失败”的解决方案~
成片核心亮点:步辇图红衣使者+三亚现代街景,冷暖色调碰撞出孤独感;主观跟拍视角+微表情细节,AI合成却自带电影感;可灵自动音效匹配脚步声+交谈声,氛围感拉满。
一、核心逻辑:为啥可灵这两个功能能实现“穿越感”?
很多人用可灵只敢单图生视频,却忽略了「多图参考+主体框选」的组合威力——前者负责“素材无缝拼接”,后者负责“锁定核心不跑偏”,比纯文本生视频精准10倍!
功能模块 | 核心作用(针对本次创作) | 比传统方法优势 |
|---|---|---|
多图参考 | 融合“吐蕃使者抠图”+“三亚公路图”,自动匹配光影色调 | 不用手动调色合成,AI直接实现“古画人物融入现代场景” |
主体框选 | 锁定红衣使者为核心 | 不用反复描述服饰细节,AI直接复刻古画服饰纹理 |
二、5步实操:从抠图到成片,每步都有避坑点(附优化方案)
我以“《步辇图》吐蕃使者穿越三亚”为例,把关键操作和你遇到的“镜头推进失败”问题全拆解,直接对应表格抄参数!
Step1:精准抠图——古画主体“不粘背景”的关键
核心目标:只抠“红衣使者”单个主体,避免带侍从或古画背景,否则会和三亚街景违和。
操作环节 | 具体步骤 | 避坑点(我踩过的雷) |
|---|---|---|
素材来源 | 故宫名画记官网下载《步辇图》高清扫描件(像素3000+,细节清晰) | 别用低清网图,否则抠图后服饰纹理模糊,AI生成会变形 |
抠图工具 | PS快速选择工具+调整边缘(边缘检测半径5px,平滑2px) | 抠完放大200%检查,避免使者衣摆、发饰处粘古画底色 |
Step2:多图参考上传——背景和主体“视角匹配”是关键
三亚公路图的视角直接影响“主观镜头”效果,选图和上传顺序有讲究!
素材准备:找“行人视角”的三亚临街公路图(要求:公路在画面中下部,两侧是多层楼房,光线明亮,和提示词“主观镜头”匹配),推荐小红书搜“三亚街景实拍”下载高清图;

可灵操作:打开可灵「视频创作」→ 选「多图参考」→ 先传“三亚公路图”(点击“设为背景参考”)→ 再传“吐蕃使者PNG”(点击“设为主体参考”)→ 勾选“保持主体比例”“自动光影融合”。

Step3:主体框选——锁定红衣使者,AI不跑偏
这步是避免“使者变路人”的核心,精准框选+备注细节缺一不可:
上传后在可灵画布中,点击图片的“参考主体”,进入选框后点击“主体”,选择「矩形框选工具」精准框选红衣使者全身;这里需要注意,因为我上传的图片人物图像太小了,所以 AI 识别不了人物的穿着和人物的面部表情,这里如果你能选就选,能保证出来的人物不会失真。

Step4:提示词撰写——解决“镜头推进失败”的核心方案
这里我给了两版本的提示词,因为我在使用到“视频延长”功能时,镜头提示词没给到位,所以没有精准的执行,但好在视频整体的意境是没问题的。
版本 | 时长 | 提示词内容 | 效果差异 |
|---|---|---|---|
初始版本(用户版) | 5S+5S | 第一段:一位神情凝重、风尘仆仆的吐蕃使者,孤身一人走在人行道上,左右打量着两边的房子。显得很孤独,电影感写实风格,冷暖色调对比,主观镜头。第二段:吐蕃使者停下脚步,镜头缓慢推进,望着周围的一切,脸上露出了困惑又若有所思的表情。 | 主体清晰,但第二段无镜头推进,表情模糊 |
优化版本(实操版) | 5S+5S | 第一段:一位神情凝重、风尘仆仆的吐蕃使者,孤身走在三亚临街人行道上,左右缓慢转头打量两侧现代楼房,身影孤独;电影感写实风格,冷暖色调对比(使者红衣暖调,背景楼房冷调),主观跟拍视角(镜头高度与使者肩部平齐,跟随行走节奏轻微晃动)。第二段:吐蕃使者停下脚步,身体微侧转向右侧楼房,眼神聚焦楼房窗户;镜头从全景缓慢推进至使者面部(推进速度0.5倍,焦点锁定使者面部,背景轻微虚化),使者脸上露出困惑又若有所思的微表情,红衣纹理与背景光影统一。 | 第一段有跟拍晃动质感,第二段镜头精准推进,面部微表情清晰 |
这是第一段提示词后生成的视频,因为太大,我直接转为GIF图了:

因为我要的是电影写实风格,所以 AI 将吐蕃使者变为了现代人,这里好理解,但是其实服饰和造型上面还是和图片上有点区别,这也不能怪 AI ,因为确实人物图像太小,AI 无法识别到人物的面部特征和服饰,但是颜色还是保留的红色。
然后我用了视频的延长功能:

填写了第二段提示词后生成视频如下:
可以看到视频里面是自带音效的,使者走路的声音、周围人物的交谈声等等,因为这里我用了 可灵 自带的音效功能。
Step5:音效搭配——自动音效+手动微调,氛围感翻倍
可灵的自动音效已经很贴合场景,但微调后更有电影感,操作超简单:
自动匹配:生成视频后,点击底部「音效」按钮,可灵会自动匹配“人行道脚步声(40%音量)”,基本不用大改;
导出设置:选择“1080P清晰度+60帧”,成片更流畅。
三、3个高阶技巧:新手必避的坑,我替你踩过了!
- 抠图要“独”:只抠单个主体!别贪多抠整个使者团,否则 AI 会把侍从也放进画面,失去“孤独穿越”的核心情绪;
- 背景要“贴”:背景视角必须和提示词“主观镜头”匹配!比如要“跟拍视角”就选行人视角图,别用高空俯拍,否则会出现“镜头穿帮”;
- 提示词要“细”:镜头描述加“参数”(推进速度0.5倍)、“焦点”(锁定面部),光影加“对比方式”,AI生成才精准。
四、题材延展:这招能套用到所有“古今碰撞”视频
不止《步辇图》,所有古画、老照片都能这么玩!我整理了3个高流量题材的适配方案,直接换素材就能用:
高流量题材 | 古画/素材主体 | 现代背景推荐 | 核心提示词方向 |
|---|---|---|---|
簪花仕女逛网红街 | 《簪花仕女图》仕女(抠图时保留团扇) | 成都太古里街景(行人视角) | 仕女手持团扇漫步,好奇打量街边店铺,暖色调为主,慢镜头 |
兵马俑站西安城墙 | 兵马俑高清实拍图(单个士兵) | 西安明城墙观景台(平视视角) | 兵马俑直立凝望远方城墙,夕阳洒在盔甲上,电影感光影,全景转特写 |
古人喝奶茶 | 《韩熙载夜宴图》侍女(手持空杯) | 网红奶茶店吧台(第一视角) | 侍女手持现代奶茶杯,低头观察杯身图案,表情好奇,室内暖光 |
五、结尾:可灵的核心不是“合成”,是“讲好小故事”
其实这招的精髓不是炫技,而是用“古画主体+现代场景”的反差制造故事感——吐蕃使者看到现代楼房的困惑、仕女逛网红街的好奇,这些细节才是打动人的关键。可灵的功能只是工具,真正让视频出圈的,是你赋予“古人”的情绪和视角。
你手里有什么想“活化”的古画?评论区发图,也可以将你的成片放评论区,我们一起来学习进步~



