veo3使用教程:提示词公式 + 分步实操 + 避坑指南
Veo3是Google DeepMind推出的一款AI视频生成模型,特点是可以一次性生成高分辨率视频和同步的音频。
使用Veo3的关键在于 “找准入口”和 “写好提示词” 。目前,Veo3主要通过几个不同的平台提供服务,你可以根据自己的需求和条件来选择。Veo3提供了更专业的控制力,它的核心在于,你需要像导演一样,用精准的“镜头语言”来指挥它,而不仅仅是描述画面。

📽️ 核心功能速览
在深入技巧前,先快速了解一下 Veo3 的核心功能与能力:
| 功能/规格 | 描述 |
|---|---|
| 输出格式 | 支持横屏 (16:9) 和原生竖屏 (9:16),适合不同平台。 |
| 分辨率 | 基础生成720p,支持AI超分至1080p或4K(部分平台/计划)。 |
| 帧率与时长 | 以 24fps 的“电影感”帧率渲染。单次生成最长 8秒,支持场景扩展拼接。 |
| 音频生成 | 原生生成同步音效、环境音和对话,集成于视频生成过程中。 |
| 核心模式 | 支持文本生成视频 (T2V)、图像生成视频 (I2V)、首/尾帧控制 (S/E Frame)。 |
| 最新版本 | Veo3.1:显著提升角色一致性(提升40-60%)、支持多图参考等。 |
🚀 进阶玩法一:像专业导演一样“调度”镜头
高质量的提示词是生成惊艳视频的基石。一个优秀的提示词需要包含以下核心元素:
- [主体]:清晰描述主角是谁。
- [动作]:具体说明在做什么。
- [情境]:交代时间、地点和环境。
- [风格与氛围]:定义画面整体的艺术风格和情感基调。
- [镜头语法]:明确指定摄影机位、景别、角度和运动方式。
- [光照与色彩]:描述场景的光线来源、性质和色调。
- [音频]:指定需要的对话、环境音或背景音乐。
- [负面提示]:明确要求避免出现的内容。
✍️ 提示词“魔法公式”与进阶范例
你可以套用一个通用模板来系统地组织你的想法:
[镜头语法] + [主体] + [动作] + [情境] + [风格与氛围] + [音频]
- 基础版
一位女战士 (主体) 在迷雾笼罩的古老森林中奔跑 (动作+情境)。风格写实,具有电影感 (风格)。
- 进阶版
一位身穿沾满泥土灰色斗篷的女战士,在迷雾笼罩的古老森林中,一棵巨大的古树旁奋力奔跑。镜头从她的背影开始,然后缓缓拉远,露出后方追赶的巨型野兽。风格:写实,冷色调,具有紧张的电影感,胶片颗粒。音频:沉重的脚步声,呼吸声,远处树木断裂声。
- 产品广告版
一个金色怀表在微光中,用特写微距镜头展示其复杂的齿轮运作。表盖以慢动作方式弹开,光线在金属表面上流动。背景是深色的天鹅绒,营造出奢华和精准的氛围。音频是清脆、纯净的机械滴答声。
🎬 镜头语言速查表
为了更好地应用上面的“镜头语法”要素,你可以参考这个速查表:
| 类别 | 关键词 | 效果 |
|---|---|---|
| 景别 | 极远景 (ELS)、远景 (LS)、中景 (MS)、特写 (CU) | 建立环境 / 聚焦局部 |
| 镜头焦段 | 35mm (人眼视角)、85mm (人像)、广角 (14-24mm) | 真实 / 压缩背景 / 冲击力 |
| 相机运动 | 推轨 (Dolly)、摇摄 (Pan)、跟拍 (Tracking)、手持 (Handheld) | 引导视线 / 增强动感 / 纪实感 |
| 相机角度 | 低角度 (Low Angle)、高角度 (High Angle)、鸟瞰 (Bird’s-eye) | 彰显权威 / 削弱渺小 / 上帝视角 |
| 光线类型 | 黄金时刻 (Golden Hour)、霓虹 (Neon)、明暗对比 (Chiaroscuro) | 温暖诗意 / 赛博朋克 / 戏剧张力 |
🧰 高效工作流:专业创作者的高级控制
对于有更高要求的创作者,可以尝试以下更强大的控制手段:
- 用图像精准引导(Image-to-Video):提供一张参考图作为基础,让 Veo3 基于此生成视频。这对保持角色、场景或特定物体的一致性格外有效。
- 确保场景一致性(首/尾帧控制):明确指定开始帧(第一帧) 和结束帧(最后一帧) 的画面,让 AI 生成两者之间的过渡视频。这是控制故事走向和确保长视频场景连贯性的利器。
- “画”出你的创意(Spatial Prompting):在图片上直接绘制箭头、圈出重点或写上文字说明,直观地告诉 AI 你想要的物体运动路径、相机移动方向或画面变化。
- “照片变活”(AI Avatar 与 Live Portrait):在部分平台(如 Opus Clips)上传一张照片,输入“让照片中的人物说话”等指令,即可生成逼真的 AI Avatar 口播视频。
- 搭建多场景叙事(Scene Extension):将多个 8秒 的片段智能连接起来,组合成超过 60秒 的连贯故事。该功能会根据上一段的最后一帧来生成下一段的开始,确保故事流畅。
🛠️ 进阶玩法二:搭建专业级工作流
如果希望将 Veo3 融入实际创作,可以参考这个专业流程:
- 创意构思:确定核心主题与观众,设计起承转合的叙事结构。
- 素材准备:拍摄清晰的原始素材(A-roll 和 B-roll),注意光线、稳定性和构图。
- 提示词工程:使用专业电影术语编写精准的结构化提示词。
- 专业工具辅助:利用分镜图(让 AI 生成提示词)和Sider.AI 等提示实验室(A/B 测试不同版本)来优化提示词。
- 参数设置:根据需求设置输出格式(16:9 或 9:16)、分辨率(最高4K)、时长(最长8秒)和音频选项。
- 生成与审核:提交任务后检查输出,确保运动连贯、音频同步、符合预期。如果不满意,根据结果调整提示词重新生成。
- 后期精剪:使用Filmora等工具对生成的视频进行精剪、添加字幕、配乐和转场,完成最终创作。
- 分发优化:为不同平台优化视频格式(如 YouTube 用横屏,TikTok/Reels 用竖屏),添加相关元数据后发布。
🐞 进阶玩法三:常见问题与故障排除
遇到问题时,可以对照以下表格进行排查:
| 问题类型 | 常见原因 | 解决方案 |
|---|---|---|
| 生成失败或卡住 | 服务器繁忙、提示词过于复杂或冲突、配额超限、参考文件格式问题 | 简化提示词,使用英文,等待后重试,检查账户额度与上传的文件 |
| 输出质量不佳 | 提示词过于抽象、指令矛盾、风格混乱 | 使用具体、无矛盾的指令,分步测试,添加“负面提示” |
| 音画不同步/无声音 | 提示词未明确音频、服务器错误或AI理解偏差 | 在提示词中明确指定音频,如生成后仍异常,可使用剪辑软件后期补救 |
| 角色/物体一致性差 | 跨场景时出现变形或风格突变 | 使用 Ingredients to Video 功能上传多张参考图(最多3张) |
| 物理模拟不真实 | 复杂物理场景下,AI倾向视觉戏剧性而非精确性 | 简化物理交互,或使用首/尾帧控制来精确引导物理过程 |
| 内容政策限制 | 提示词包含敏感、政治或暴力等违规词汇 | 仔细审查并修改提示词中的敏感内容,保持中性描述 |
💡 进阶玩法四:玩转 Veo3 的隐藏技巧
除了核心工作流,还有一些技巧能让你的创作更上一层楼:
- AI 帮你写提示词:可以用 DeepSeek 等 AI 助手来优化和生成高质量的 Veo3 提示词。只需描述你的创意,它就能帮你扩展成结构完整、细节丰富的“导演剧本”。
- 善用负面提示:务必包含“无文字、无水印、无模糊画面”等指令,以提升生成结果的可用性。
- 清晰指定音频:想生成声音,提示词需精确,例如“脚步声在瓷砖上回响”,比“有声音”效果好得多。
- 保持24fps与合理码率:在后期时保持 24fps 帧率,使用合理的码率(如 10-20 Mbps 用于1080p)输出,避免二次编码导致画质下降。
🔍 进阶玩法五:选择你的 Veo3 平台
选择合适的平台至关重要,每个平台的访问方式、价格和功能都有所不同。下表汇总了主要平台的特点:
| 平台/服务 | 访问与价格 | 核心特点 | 适合人群 |
|---|---|---|---|
| Google AI Studio (Gemini) | 需订阅 Google AI Pro (约$20/月),含约10次生成/月。 | 最直接,功能全面,是Veo3的核心体验区。 | 大多数用户、爱好者、内容创作者。 |
| Google Flow | 需订阅 Google AI Pro 或更高。 | 更专业的AI电影制作工具,对镜头、场景控制力更强,提供4K选项。 | 专业视频创作者、电影制作人。 |
| YouTube Shorts | 部分用户可用,可能需特定资格或地区。 | 直接在Shorts创作工具中使用,生成竖屏短视频,快速高效。 | YouTube Shorts创作者。 |
| Google Opal | 免费,但仅限美国地区(需VPN)。 | 实验性平台,适合尝鲜和测试。 | 美国地区用户、技术尝鲜者。 |
| Adobe & Filmora | 需订阅相应软件(如Premiere Pro)。 | 无缝集成在专业剪辑软件中,工作流顺畅。 | 专业剪辑师、已有Adobe/Filmora工作流的用户。 |
- 最新版本 Veo3.1:如果你追求最高的角色一致性和画质(4K),应首选支持 Veo3.1 的平台,如 Flow、Gemini API 或 Vertex AI。
- 快速生成模型 Veo3.1 Fast:对于需要快速预览或生成大量草稿的场景,可以选择 Veo3.1 Fast 模型,它以稍低的画质换取更快的生成速度。
⚖️ 进阶玩法六:Veo3 与其他模型的横向对比
了解 Veo3 在行业中的位置,能帮你更好地做出选择。以下是与主要竞品的对比:
| 对比维度 | Google Veo3 | OpenAI Sora | Runway Gen-3 |
|---|---|---|---|
| 优势领域 | 广告级真实感、材质光影出色、原生音频、精准镜头控制。 | 动作流畅度、物理模拟真实、长视频稳定、无缝转场。 | 创意特效、风格化、视频编辑和扩展功能强大。 |
| 价格 | 订阅制 ($20/月起),约$0.20-$0.39/秒。 | 免费(基础版)或有付费计划,约$0.15/秒(低分辨率)。 | 积分制/订阅制。 |
| 视频长度 | 基础8秒,可扩展拼接。 | 基础10-15秒,Pro用户可达25秒。 | 基础10秒,可扩展。 |
| 音频生成 | 原生同步生成。 | 支持(Sora 2版本)。 | 不支持(需后期添加)。 |
简单来说,追求极致画质和广告级真实感,或需要在创作中生成同步音频,Veo3 是首选。如果需要较长的视频和更自然的物理运动,Sora 是强有力的竞争者。而 Runway Gen-3 则在创意特效和风格化视频领域见长。

