最近搞了个超强的自动化视频配音流,直接把腾讯的 Hunyuan-Video-Foley 模型跟 MiniCPM 视觉语言模型串联在一起,做到了给视频“自动反推提示词+生成音效”一条龙服务。以前做音效得自己翻素材库,现在直接丢给模型,省事太多了。
这套工作流的精髓在于:
1. **MiniCPM 模型**:它负责盯着你的视频画面,看懂里面发生了什么动作,然后自动翻译成描述性的提示词。
2. **Hunyuan-Video-Foley**:基于反推出来的提示词,利用多模态扩散模型生成高质量的音效。哪怕是那种很细微的落地、撞击或者环境音,效果都非常真实。





