Veo 3.1 生成画面示例
在 AI 视频生成的赛道上,过去的一年是充满了惊叹的。从科比看自己的抽象视频,到花果山深情演唱,我们惊叹于 Sora2 每一帧画面的真实感,但短剧从业者却感到无力感。
为什么?因为目前的 AI 视频生成,还是 一镜到底。
如果你想的是只有 10 秒钟的镜头,AI 的表现堪称完美。但如果你想拍一部 1 分钟的短剧,或者一个有剧情的广告片,灾难就开始了。上一秒还是红金战甲的钢铁侠,下一秒的近景镜头,头盔就成了摩托车头盔。
对于讲故事的人来说,这种变脸是不可接受的。
无法固定角色,无法固定场景,无法控制分镜,这是 AI 短剧赛道最大的痛点。
然而,就在 2026 年的开年,谷歌升级了 Veo 3.1。
核心利器:Ingredients to Video(从素材到视频)。
角色一致性实测
一、 解法
Veo 3.1 的核心逻辑,是提前给 AI 配料表,看图说话。
1. 打上锚点
谷歌允许用户上传最多三张参考图。
三图上传演示
- 第一张图:角色锚点。
你想拍一个虚拟偶像的 Vlog?没问题,把她的人设图传上去。不管视频里她是走路、吃饭还是跳舞,AI 会死死锁住她的五官特征和发型。哪怕你切换场景,她依然是她。 - 第二张图:背景锚点。
你想让故事发生在成都的街道上?传一张概念图。AI 明白,接下来的所有镜头,都要在这个空间里发生,周边的古建不能乱变,地面的积水不能消失。 - 第三张图:风格锚点。
你想要皮克斯风格,还是胶片电影感?一张图搞定。
这就是预制菜的逻辑。 以前做视频是抽卡,出来什么味道全看天意。现在,谷歌让你把核心的调料包(角色、背景、风格)先配好。配方固定了,炒出来的菜(视频)味道就是稳定的。
对于短剧创作者来说,这简直是救命稻草。这意味着你终于可以写剧本了:
“场景一:主角 A 在咖啡厅(引用背景图)喝咖啡(引用角色图)。”
“场景二:主角 A 走出咖啡厅,回头微笑。”
在 Veo 3.1 的加持下,这两个镜头里的主角 A,终于长得一样了。
2. 原生 9:16
除了由素材控制一致性,Veo 3.1 另一个看似微小实则巨大的升级是:原生 9:16(竖屏)生成。
原生竖屏构图优势
很多人可能觉得这有什么难的?我生成一个 16:9 的宽屏视频,然后用剪辑软件裁切一下不就行了吗?
不行。 你往往会遇到两个问题:
- 画质损耗: 裁剪意味着放大,像素点被拉伸,画面变糊。
- 构图灾难: 宽屏构图的两人对话,一刀切成竖屏,配角可能只剩半张脸,或者直接出画了。
Veo 3.1 的 原生竖屏 让视频生成更简单,它会自动把主角放在 C 位,会自动预留出上方给标题、下方给字幕的 UI 空间。
这直接对齐了抖音、YouTube Shorts 的 手机风格,创作者拿到的就是一个 做完就能发 的成品。
再加上 4K 升频 技术,虽然这不全是原生的 4K 渲染,但对于在手机小屏幕上观看的用户来说,这种锐度和清晰度的提升足以满足。
画质增强与 4K 升频
二、 野心
如果仅仅是功能升级,Veo 3.1 充其量也就是 Runwany 的一个强劲对手。但 Google 最可怕的地方不在于技术本身,而在于 它把这项技术放在了哪里。
在发布会上,Sundar Pichai 轻描淡写地宣布:Veo 3.1 的能力将首次整合进 YouTube Shorts 和 YouTube Create。这是一个战略动作。
1. 内置滤镜 vs 外部软件
在此之前,如果你想用 AI 做视频,你的工作流是割裂的:
打开豆包或 Sora -> 输入提示词生成视频 -> 下载到本地 -> 导入剪辑软件 -> 配乐加字幕 -> 导出 -> 打开 YouTube 上传。
现在,谷歌把 Veo 3.1 这个引擎直接塞进了 YouTube 的后台。对于数十亿用户来说,AI 视频生成不再是一个需要专门去登录、去付费、去学习的 外部工具。
这就好比当年 Instagram 推出了内置滤镜,瞬间堵死了无数修图软件一样。原生打败“外挂”。
2. 全场景的围剿
谷歌正在铺设一张密不透风的视频生产网:
- 对于大众用户(C 端): 入口是 Gemini App 和 YouTube Shorts。门槛极低,随手拍,随手生。
- 对于专业创作者(Pro 端): 入口是 Google Vids 和 YouTube Create。提供更精细的控制,服务于工作流。
- 对于企业开发者(B 端): 入口是 Vertex AI。开放 API,让你把 Veo 集成到自己的企业应用里。
从灵感到素材,从素材到成品,从成品到分发。谷歌并没有试图做一个最好的 AI 视频工具,它在做的是一个 AI 视频生产流水线。
Google 视频生产全生态
三、 影响
Veo 3.1 的发布,标志着 AI 视频进入了 量产期。
1. 对创作者:门槛踏平
对于个人创作者来说,系列化内容 的门槛被踏平了。
以前你想做个“霸道总裁爱上我”的短剧,必须要摄影棚。现在,你只需要设计好男女主角的形象,剩下的表演交给 AI,不用担心下一集男主角突然换人了。这预示着每一个有故事的人,都能用 Veo 3.1 捏出属于自己的“李子柒”或“罗永浩”。
2. 对品牌方:资产复用
对于企业来说,Veo 3.1 带来的最大价值是 资产复用。
在过去,拍一条广告是一次性的。场景搭了,演员请了,拍完就拆。现在,品牌的三张核心图片,Logo、代言人、产品,变成了可重复使用的数字资产。
- 市场部想做一条春节广告?
配方:产品图 + 春节背景图 + 喜庆风格图 = 视频 A。 - 想做一条情人节广告?
配方:产品图 + 烛光晚餐背景图 + 浪漫风格图 = 视频 B。
这种 “模块化” 的视频生产方式,把效率拉到天花板。
3. 防伪机制
当然,当生成视频变得简单时,真实性 就成了稀缺资源。
谷歌在升级 Veo 3.1 的同时,它也在大力推广 SynthID 技术,数字水印能嵌入到 AI 生成的每一帧画面里。当 YouTube 上每天涌入数万条 AI 视频,平台必须有能力瞬间识别出哪些是真人在拍,哪些是 AI,更利于推流和标注。
SynthID 数字水印机制
四、 结语
Sora 刚出来时,我们以为那就是未来。但一年过去了,可玩性还是太少。
而谷歌想做的,是把这个引擎装进每一个人的手机里,坐拥 YouTube 的谷歌,在开年已经抢跑了一个身位。



