用 DeeVid AI 制作视频，画面的真实感让我震撼到了！

2025-12-30 14:38:13

视频生成大模型

图像生成

兄弟们，我花光了 DeeVid AI 新手账号仅有的20积分，本想拍个“高级男女对话镜头”，结果翻车了（没有跟我的指令生成相应的画面）——但结果却让我意外，它的电影质感和人物细节的处理，给了我一个意外之喜。

一、我用 DeeVid 做的这6秒成片示例

实话实说，我很喜欢 DeeVid AI 生成的这段视频，非常有电影的质感，而且故事人物的细节也处理得很好，比如一开始女主是坐直了身子，但当男主开始说话的时候，女主身体前倾，右手靠在桌子上，男主讲完后就将双手从桌子上放下，似乎在祈求女主的原谅，女主在倾听过程中则频繁点头，虽然没有台词，但是从画面中两人的表情也能大概猜测出这段故事的一二，还有镜头的运镜、玻璃上的倒影、窗外的房屋等等，我真的没有给太多提示词，但是它却能将这些事物很好的融合在这段6秒的视频中，这就是它让我感到惊喜的地方。

二、6秒短片复盘

我没有直接用 DeeVid AI 给我生成画面，而是先用豆包给我生成了三张底图，然后再将底图上传到 DeeVid AI 上面，通过图生视频来实现的，接下来我就来完整的复盘下。

2.1 短片情节构思

虽然只有短短的几秒视频，但是我们在做之前，也需要想清楚该视频想传递给观众什么信息，也方便你给到AI指令，让它给你产出合适的物料。

我对该视频的情节规划：

男女主在咖啡馆一角对面而坐，男主与女主在交谈着某件事情，气氛十分沉重，男主说完这句“真的决定好了吗？”，女主突然眼眶湿润的望向窗外。

2.2 前期准备：先找豆包生成3张底图

为了 DeeVid 生成视频的时候不易跑偏，所以我先用豆包给我生成了三张固定的底图。

角色/场景	提示词（英文）
男主	A photo of a man named Leo, Caucasian, short brown hair, clean shaven, wearing a grey wool sweater, looking directly at the camera with a complex, pained expression, in a cafe. Cinematic, portrait photography, sharp focus on eyes, 85mm lens.（一张名为莱奥的男子的照片，白人，短棕色头发，干净的下巴，穿着灰色羊毛毛衣，直视相机，表情复杂且痛苦，在咖啡馆里。电影风格，肖像摄影，眼睛部分清晰对焦，使用85mm镜头。）
女主	A photo of a woman named Mia, Asian, long black hair, wearing a white linen shirt, her eyes are slightly red as if holding back tears, looking at the camera, in a cafe. Cinematic, portrait photography, soft lighting, 85mm lens.（一张名为米娅的女性照片，亚洲人，长黑发，穿着白色亚麻衬衫，她的眼睛微微泛红，仿佛强忍着泪水，正看向相机，场景在咖啡馆内。电影感十足的人像摄影，柔和的光线，使用85mm镜头。）
场景	A cozy cafe booth by a large window. Wooden table, two coffee cups, one with a lipstick mark, afternoon sun casting long shadows on the seat. Empty, waiting for occupants. Cinematic, wide shot, depth of field.（靠在大窗户旁的一个温馨咖啡馆卡座。木质桌子，两个咖啡杯，其中一个带有口红印，午后的阳光在座位上投下长长的影子。空荡荡的，等待着主人。电影感十足，广角镜头，有景深效果。）

2.3 角色/场景示例图

男主示例图

女主示例图

场景示例图

只要关键词给到位，豆包生成的图还是一如既往的稳定，最重要的是免费！

2.4 图生视频

将豆包生成好的静态图选择一张合适的保存下来，打开 DeeVid AI 平台，点击导航“Image to Video”。

找到左侧“Image to Video”，选中“Reference Images”，将你生成好的三张固定底图上传上去，输入提示词即可。

这里提示词建议用英文，因为是国外的工具，所以对英文提示词相对友好点。你可以用中文写好提示词，然后用 DeepSeek 把你的提示词转为英文即可。

我的提示词如下：

英文：

A continuous cinematic shot in a cozy cafe. Using uploaded reference image 1 as the scene. The woman (reference image 2) sits on the right side of the coffee table (ref image 1), and the man (reference image 3) sits on the left side (ref image 1). The shot begins with a close-up on the man's face, his lips moving softly as he speaks in a low, earnest tone. The line is: "Have you really made up your mind?" The camera then smoothly pulls back to reveal both of them sitting at the table by the window, which is the uploaded scene (ref image 1). As he finishes speaking, the focus shifts to the woman. Her eyes well up with tears as she listens, her lips trembling slightly before she turns her gaze out the window. Ambient sounds of quiet cafe jazz, muffled chatter, and the distant clink of a coffee cup. Shallow depth of field, 35mm film grain, raw emotional realism, 8k.

中文：

一段连续的电影镜头，场景设定在一家温馨的咖啡馆，参考上传的参考图1。使用上传的男女作为两个角色，女主参考参考图2，男主参考参考图3。女主坐在咖啡桌（参考图1）右边座位，男主坐在咖啡桌（参考图1）左边座位，镜头从男子的脸部特写开始，他的嘴唇轻柔地移动着，用低沉而诚恳的语气说话。台词是：“真的决定好了吗？”，随后，相机平稳地拉回，展现出两人坐在窗边的桌子旁，画面即为上传的场景（参考图1）。当他说完话后，焦点转移到女子身上。她听着时眼眶湿润，嘴唇微微颤抖，然后将目光转向窗外。背景中传来咖啡馆里轻柔的爵士乐、模糊的交谈声以及远处咖啡杯碰撞的叮当声。浅景深，35毫米胶片颗粒感，原始的情感现实主义风格，8K画质。

我用的是 Master V2.0 模型，该模型支持音效、多机位切换，因此我提示词加上了音效，想测试下在提示词里面加入音效后是否能出效果，结果翻车了。

我将生成的初始视频转为GIF图，因原视频太大，所以降低了下画质

画面开始的提示词没写好，应该限定男主的位置，可能效果要好点。但是不得不说，这段“翻车”的视频还是可以用的，出来的效果比我想的要好，可能这也是 AI 工具带给我们的惊喜感吧。

2.5 用剪映做视频融合

生成前想要的画面没有出现，那就需要借助到剪辑工具来做视频融合了，直接将视频导入到剪映，把前面突兀的那段直接剪掉，融合咖啡馆的背景音、用户交谈声、汤匙敲击声等音效，这部短片就成了。

我有想过加入他们的对话音频，但是感觉加上反而破坏了这一画面，就放弃了。有时候我们在做视频的时候，确实需要取舍。

三、我的一些思考：从“被动翻车”到“产出高质感素材

想不浪费积分，还能稳定拿到可用素材，关键是你怎么给提示词，让 AI 的强项发挥到极致。

3.1 指令公式：3个要素，让 AI 100%产出可用素材

【核心氛围】+ 【微动态要求】+ 【质感细节】 （坚决去掉“剧情、台词、精准动作”这些AI不擅长的指令）

错误指令（AI可能会出错）	正确指令（素材思维）	AI产出效果
“女生在咖啡馆看短信，难过放下手机，望向窗外下雨”	“咖啡馆内，孤独安静的氛围，女生独自坐着，画面有极轻微动态（呼吸起伏、发丝微动），暖光电影感，写实风格，无明显动作”	画面稳定、质感高级，可直接用作情感视频素材
“男生在街头跑步，抬头看天，露出微笑”	“城市街头，清晨治愈氛围，男生站在路边，微动态（风吹衣角、轻微抬头），电影级景深，冷色调”	氛围感拉满，可适配励志、治愈等多个主题
“情侣在海边牵手，女生靠在男生肩膀”	“海边日落，温馨浪漫氛围，两人并肩而坐，微动态（海浪起伏、肩膀轻微贴合），柔焦效果，暖橙色调”	场景真实，动态自然，可搭配不同文案做情感内容

3.2 不同场景的“黄金指令模板”（直接复制用）

情感向素材：“深夜卧室，孤独氛围，女生坐在书桌前，微动态（手指轻碰书页、呼吸起伏），低饱和冷光，电影感景深”
励志向素材：“写字楼窗边，奋斗氛围，男生站在落地窗前，微动态（目光远眺、衣角微动），高对比度光线，写实风格”
治愈向素材：“公园草坪，清新氛围，女生躺着晒太阳，微动态（眼皮轻眨、草叶晃动），柔光滤镜，自然色调”

四、AI时代，创作者的核心价值是什么？

这次20积分的翻车经历，让我彻底想通了：AI不是来取代创作者的，而是来“解放”创作者的——它帮我们搞定了最耗时、最耗钱的“画面质感”问题（比如搭建电影级场景、打光、拍摄），而我们可以把精力放在最核心的“创意”上。

AI负责“生产画面”：它能做出你拍不出来的质感，但它没有情感、没有故事、没有价值观；
你负责“赋予灵魂”：同样一段咖啡馆画面，你可以配“告别”文案，也可以配“相遇”文案，还能配“治愈”文案——真正决定视频火不火的，是你的创意、你的洞察、你的表达；

未来的爆款逻辑：高质感画面（AI）+ 强共鸣故事（你）= 必火内容。

所以，下次AI没按你的想法来，先别骂它“没用”。先看看画面质感怎么样——如果质感在线，恭喜你，你捡到宝了！

这才是跟AI合作的最高境界：不跟它的弱点较劲，只把它的优点用到极致。

以上内容不代表本平台立场，仅供读者参考