新媒体AI视频制作:DeepSeek+ttsmaker+即梦+剪映,低成本搞定宫崎骏风日式治愈短片
现在AI视频正火,不少自媒体创业者都想抓住这波热度,尝试用AI制作视频,但常常卡在“不知道从何下手”这一步。
今天这篇文章,就带你彻底走通一遍——就算没有专业绘画功底,也不懂复杂剪辑,你也能从0到1做出一支充满宫崎骏风格的日式治愈短片。
我们只需要用好四个工具:DeepSeek、ttsmaker、即梦、剪映。下面我会完整拆解整个制作流程,包括每个工具的分工、具体操作步骤、示例细节,以及后续优化方向。新手朋友完全可以跟着一步一步做出来。
另外,这篇文章的宗旨是授人以鱼不如授人以渔,只要掌握了核心思路,做其他类型的短片都是一样的操作流程,只是主题不一样而已。
一、核心工具组合:分工明确,无缝衔接
工具名称 | 核心作用 | 关键操作亮点 |
|---|---|---|
DeepSeek | 搭建故事骨架(核心情节+分镜) | 精准输出分镜时长+风格指令,适配后续工具 |
ttsmaker | 定制角色配音(语气+停顿+音色) | 免费调整语速/音调,支持手动设置停顿节奏 |
即梦 | 生成动态视频(图生视频+风格还原) | 精准匹配宫崎骏画风,自然动态效果拉满 |
剪映 | 整合合成(视频+音频+特效+BGM) | 操作简单,含免费治愈系滤镜、BGM库 |
核心逻辑:先由DeepSeek搞定“怎么拍”,ttsmaker匹配“怎么说”,即梦实现“视觉落地”,最后剪映完成“整合优化”,全程零成本,2小时即可出片!
二、完整实操流程:从0到1制作30秒短片
Step 1:DeepSeek生成核心情节+分镜
宫崎骏风格的核心是“治愈无冲突+自然场景+温柔互动”,给DeepSeek的指令需明确这些要点,才能精准产出可用的情节和分镜。
首先把你的短片故事情节告诉给DeepSeek,让它根据你提供的故事短片来做故事拓展,或规划相应的分镜镜头脚本。
下面我就来实际举例说明:
短片情节:一位即将远行的女孩与一位老爷爷在铁道口相遇,发现这位老爷爷在专注的画着樱花树,一番询问过后才知道,原来老爷爷年轻时,曾因为自己的一些梦想,没有好好珍惜身边的眼前人…女孩听后若有所思起来…
以上是我构思的这部短片情节,现在需要让 DeepSeek 来给我建议一下各分镜镜头和脚本了。
提示词如下:
你是一位拥有多年经验,且老道的短片导演,你十分擅长故事情节梳理和镜头规划,现在请根据我提供的短片情节,来设计下5个分镜脚本。短片情节【一位即将远行的女孩与一位老爷爷在铁道口相遇,发现这位老爷爷在专注的画着樱花树,一番询问过后才知道,原来老爷爷年轻时,曾因为自己的一些梦想,没有好好珍惜身边的眼前人…女孩听后若有所思起来…】
其实画面情节越多越丰富,给到观众的信息就会越多,观众才能更好的了解剧情,这篇文章主要是帮助大家了解如何用 AI 来生成日式风格的短片,所以示例短片不会很长,只用了5个镜头来展开故事情节,但是如果想要真正讲好故事,还是建议画面越多越好。
生成结果(分镜列表):
镜号 | 场景/时长 | 镜头描述 | 画面与动作 |
1 | 铁道口·日(5s) | 开场定调 | 樱花纷飞的铁道口,列车驶过。人群散尽,唯有一位白发爷爷(森田)坐在长椅上,对着樱花树作画。一个女孩(小樱)入画,脚步放缓至暂停。 |
2 | 画板前·日(5s) | 建立联系 | A:小樱侧身,好奇地看向画板。 B:森田爷爷感知到目光,抬头报以温和微笑,示意她可以看。 |
3 | 蒙太奇·日(5s) | 画板特写 | 画纸上,樱花树下逐渐浮现一个模糊的少女背影。 |
4 | 樱花树下·日(5s) | 情感高潮 | 小樱与爷爷对话,知晓画画原因。 |
5 | 樱花树下·日(5s) | 若有所思 | 小樱转头回望远方,若有所思。 |
以上是和 DeepSeek 经过多轮讨论之后,最终确定下来的5个分镜脚本,注意:当 AI 给你的分镜脚本你不满意时,可以和它反复的进行讨论,把你的想法告诉它,然后不断磨合,直到给出你满意的剧情脚本为止。
Step 2:ttsmaker定制贴合角色的配音
这里我推荐一个网站,ttsmaker AI:https://ttsmaker.com/;它是一款免费的文本转语音工具,并且支持多种语言,包括英语、法语、德语、西班牙语、阿拉伯语、中文、日语、韩语、越南语等,唯一不足的就是语音风格有点偏少。

2.1 撰写旁白文案
这里可以再次借助 DeepSeek 让其根据故事情节,帮你设计两者人物之间的对话。
提示词如下:
基于以上故事情节,小樱看到爷爷画画后,会主动询问他,我想请你帮我设计一段他们之间的对话交流

上图为 DeepSeek 给到我的对话场景
选择好对话后,将对话复制进 ttsmaker AI,选择好配音即可生成。这里提一句,
Step 3:即梦3.5Pro生成动态视频
利用即梦的图生视频功能,将静态画面转化为动态视频,重点是还原宫崎骏的画风和自然动态。
3.1 静态图准备
接下来就是根据各分镜脚本来撰写各文生图提示词了。
我们先来设定少女小樱和爷爷森田的人物图,以及铁道口的场景图,后期在生成各镜头静态图时,就能保证人物和场景的一致性了。这一步是为了约束 AI 在给到特定场景时不跳脱。
少女小樱人物提示词
大师级作品,最佳质量,动漫风格,1个女孩,东亚少女,面容温柔,黑色齐肩短发略带波浪,大眼睛,穿着标准日本水手服(深蓝色裙装,红色领结),背着书包。,比例 「4:3」

爷爷森田人物提示词
大师级作品,最佳质量,动漫风格,日本老爷爷,70多岁,智慧慈祥的表情,一头整齐的银白色头发,戴细框金属眼镜,穿着米色开衫和浅色衬衫,和蔼的微笑,手里拿着素描本或铅笔。,比例 「4:3」

乡村电车铁道口提示词
大师级作品,最佳质量,日本乡村电车铁道口,红白相间的栏杆,警示灯。铁道口一侧,有一张旧的深绿色或木制长椅。 长椅旁是一棵盛开的巨大染井吉野樱花树,花瓣飞舞。远处是乡村房屋和电线,春天午后光线,新海诚电影风格,宫崎骏背景画风,细节丰富,电影感光线。,比例 「4:3」

AI 生成后,选一张合适的保存为核心底图,人物最好选择全身像,场景最好选择全景,涵盖了周边的环境、设施等,方便后续图生图,AI 不会跑偏。如果没有合适的图,就让 AI 继续为你生成。
底图生成好后,接下来我们就来生成各分镜的静态图了:
分镜静态图提示词
分镜1:
将“小樱”、“爷爷”、“铁道口”三张静态图上传到豆包,并给到提示词,让 AI 根据底图来生成分镜1的静态图,提示词如下:
大师级作品,最佳质量,动漫电影风格,广角镜头,日本乡村樱花铁道口,红白栏杆抬起,漫天樱花飞舞(参考上传的参考图2)。一位银发的日本老爷爷(参考图1的人物形象,穿着米色开衫,戴眼镜)正坐在参考图2的旧的长椅上,对着樱花树写生。 一个穿着水手服的少女(参考图3的人物形象)正走过,注意到他时放慢了脚步。春天午后,温暖阳光,梦幻氛围。

分镜2:
分镜2的静态图生成流程和分镜1一样,将生成的分镜1的静态图和老爷爷的人物图作为参考图上传给即梦(因为后面豆包生成的图有问题,没达到我想要的,就换成即梦了) ,让它按照你的要求给你生成。提示词如下:
大师级作品,最佳质量,动漫风格,电影镜头,中近景 (medium close-up),人物腰部以上构图。 一位慈祥的日本老爷爷(人物形象是参考图2,银发,戴细框眼镜,穿米色开衫)坐在长椅上,他的身体和面部完全正面朝向观众(镜头),双手自然放在膝盖的素描本上,右手拿着参考图1的右手握着的笔。 他正直接、友善地凝视着镜头,仿佛在与画外的人进行眼神交流,脸上带着温暖、平和的微笑。 背景是高度虚化的樱花树(记住,只有一颗樱花树),形成柔和的光斑。 视线水平与镜头持平或略低,营造一种亲近、平等的对话感。焦点锐利地集中在老爷爷的眼睛和面部表情上。

分镜3:
将生成的分镜2作为参考图,上传到即梦,让它根据参考图生成分镜3的画面,提示词如下:
大师级作品,最佳质量,动漫风格,素描本极致特写,参考图人物的镜头视角,双手握着的素描本放在双腿上(参考人物素描本摆放的腿部位置),素描本页面上是一幅精美的铅笔素描樱花树。在树下,线条变得柔和写意,隐约形成一个穿着旧式服装的少女的模糊背影,仿佛一段记忆。有几片花瓣被画下飘落。突出铅笔质感,背景虚化。

分镜4:
把分镜1和老爷爷、小樱的人物图作为参考图上传上去,提示词如下:
大师级作品,最佳质量,动漫电影风格,近景镜头,侧方视角(3/4侧面)。 【场景与构图】 场景参考参考图1,日本乡村樱花铁道口,红白栏杆旁。盛开的樱花树下,那张旧的深绿色长椅。构图包含两个人:森田爷爷坐在长椅左端,穿着水手服的少女小樱站在长椅右侧前方,两人之间约有一步距离。镜头从他们的侧前方拍摄,将两人都纳入画面,形成稳定的三角形构图。 【人物细节与状态】 森田爷爷:参考参考图2的人物形象,特征(银发,细框眼镜,米色开衫)。他坐在长椅上,打开的素描本放在膝头,右手握着铅笔但已停笔。身体朝向画板方向,但头部回转约60度,仰起脸,正对着站立的少女说话。表情温和、沉浸,带着回忆的悠远感,嘴唇微启。 小樱:参考参考图3的人物形象,特征(黑色齐肩发,深蓝色水手服,红领结)。她微微低头,身体略前倾,双手礼貌地交握在身前,视线落在爷爷膝头的素描本上,神情专注,正在认真倾听。姿态显示出尊重与思考。 【氛围与光线】 春日午后,温暖柔和的阳光穿过樱花树梢,形成斑驳的光影洒在两人身上和长椅。几片樱花花瓣在空中缓缓飘落。背景的铁道口和樱花树做浅景深虚化处理,突出人物。整体氛围宁静、专注,充满含蓄的情感流动。 【风格与核心】 新海诚与吉卜力混合风格,强调细腻的角色表情和真实的环境光影。画面捕捉两人第一次深入交谈的瞬间,体现“倾听”与“讲述”的联结。

分镜5:
因为分镜5和分镜4的画面其实是一样的,所以分镜5就不单独出图了,直接用分镜4的图生成分镜5的。
分镜1-4的静态图示例

3.2 即梦图生视频
将各分镜静态图上传上去,输入提示词即可,图生视频提示词分享如下:
分镜 | 图生视频提示词 |
1 | 电影开场镜头,缓慢的横摇全景。画面从盛开的樱花树左边开始,从左轻柔横移至道路中间。樱花花瓣持续地、缓慢地从枝头飘落。穿着水手服的少女从缓慢走进,她的头发和裙摆随着微风轻轻飘动。当她注意到爷爷时,脚步自然的停下。整个镜头速度舒缓,充满宁静的春日氛围。阳光角度随时间有极其缓慢的变化。 |
2 | 低角度主观视角镜头,模拟少女的视线。焦点集中在爷爷抬起的面部。当他温暖微笑时,眼神有一个细微的、友善的闪烁。逆光的发丝和眼镜边缘有柔和的光晕波动。背景是高度虚化、微微晃动的光斑,模拟人眼的自然景深和微动。整个镜头时长较短,充满瞬间的温暖互动感。 |
3 | 极致推焦特写镜头,缓慢推进画纸。铅笔线条在特写镜头下展现出细腻的纹理。镜头最终聚焦在树下那个柔和、模糊的少女背影轮廓上,仿佛在凝视一段记忆。可以添加非常轻微的2D动态效果,如一两片画中的花瓣以极慢速度飘落,赋予素描一种超越静态的、情感流动的感觉。 |
4 | 固定机位侧近景镜头,捕捉对话瞬间的微动态。少女轻声对爷爷说:“爷爷,您为什么总是画这棵树呢?(对口型)”爷爷(笔尖未停,目光悠远)“因为,它帮我记得。(对口型)”,少女回道:“记得什么?(对口型)”爷爷:(微笑,终于侧头看了少女一眼)“记得那年春天,有个人和我一样,在这里等了很久很久的车。她看着花,我看着……别处。(对口型)”少女倾听时,眼睫有轻微的垂下与抬起,表达思考。一阵微风拂过,带动她额前的发丝和爷爷画纸的一角轻轻颤动。更多的樱花花瓣从树上旋转飘落,穿过两人之间的空间。光线保持稳定,营造一个时间仿佛为这个对话片刻而放慢的宁静气泡。 |
5 | 固定机位长镜头,捕捉对话结束后的静谧余韵。爷爷低头保持静止,只有呼吸带来的极其微弱的身体起伏。少女站直身子转身望向远方的动作缓慢而坚定,镜头跟随,完成后也凝止如雕塑。此处的动态核心全部交给环境:大量樱花花瓣以更密集、更缓慢的方式如雪般飘落,部分花瓣轻柔地落在爷爷的画纸和少女的肩头。光线逐渐变得更加金黄,暗示午后时光的温柔流逝。整个镜头动态近乎静止,唯花瓣纷飞,将瞬间升华为永恒,留下无限遐想。 |
Step 4:剪映合成完整短片
将视频、配音、BGM等元素整合,进行细节优化,提升短片的治愈感。
- 导入素材:将即梦生成的5段视频按分镜顺序导入剪映,拼接成完整片段;
- 音视频对齐:导入 ttsmaker 生成的配音音频,调整音频位置,确保旁白与画面同步;
- 添加BGM:选择轻柔的钢琴纯音乐(符合宫崎骏动画配乐风格),将音量调至低于配音30%,避免盖过人声;
- 导出设置:选择1080P分辨率,导出30秒完整短片。

三、完整视频示例及初稿优化方向
本次制作的30秒初稿已具备治愈感,但在情节画面丰富度和配音语气上仍有优化空间,具体方向如下:
1. 情节&画面丰富度优化
整体情节可以再完善,增加点画面丰富度,比如老爷爷的回忆,让观众更容易带入进去,另外少女小樱在与老爷爷对话结束后,可以增加点心理活动,借助转头凝望远方的动作,更容易让观众了解她转头的意义。
2. 配音语气优化
老爷爷在说到“我只是望向远方”的时候,在“我”字后面可以加入停顿,能表达人物的后悔。
所以我们在制作一部视频,想要达到自己满意的程度的话,是需要不断反复打磨的。
四、结尾总结
用DeepSeek+ttsmaker+即梦+剪映的组合制作宫崎骏风短片,核心是“分工明确+细节打磨”。四个工具各司其职,降低了创作门槛,零成本就能实现风格化表达。只要在情节、画面和配音上多花心思优化,就能做出更贴近宫崎骏动画质感的治愈短片。
如果想尝试其他风格(如悬疑、搞笑),或需要某一步的精准指令模板,随时可以根据这个框架调整工具参数和内容方向~



