震爆开源圈,InfiniteTalk数字人来了:无限时长+极致唇形同步,直接封神!
2025-12-24 16:45:54
文章摘要
InfiniteTalk数字人模型正式亮相,凭借精准唇形同步、稳定身体动作和无限长度生成,全面超越MultiTalk。它不仅是开源社区的王炸项目,更是闭源数字人的最强竞敌,颠覆传统配音模式。

一、最强数字人InfiniteTalk介绍


兄弟们,今天这个王炸会整动整个开源界,闭源数字人迎来了最强竞敌,就是今天介绍的这个InfiniteTalk数字人,它比之前介绍的MultiTalk更强,更精准的唇形同步+无限长度生成奠定了它最强数字人的王座。


InfiniteTalk是一种新颖的稀疏帧视频配音框架。给定输入视频和音轨,InfiniteTalk 会合成具有准确唇部同步的新视频,同时将头部运动、身体姿势和面部表情与音频保持一致。与仅关注嘴唇的传统配音方法不同,InfiniteTalk 可以生成无限长度的视频,具有准确的口型同步和一致的身份保留。此外,InfiniteTalk 还可以用作图像音频到视频模型,以图像和音频作为输入。


  1. 💬 稀疏帧视频配音 – 不仅同步嘴唇,还同步头部、身体和表情
  2. ⏱️ 无限长度生成 – 支持无限视频时长
  3. 稳定性 – 与 MultiTalk 相比,减少手/身体失真
  4. 🚀 唇形准确性 – 实现与 MultiTalk 的卓越唇形同步

  1. gitHub地址:https://github.com/MeiGen-AI/InfiniteTalk


二、相关安装

该模型使用KijaiComfyUI-WanVideoWrapper插件,结合Wan2.1模型来使用,需要更新插件到最新版。

模型和工作流文末网盘会一起提供!


  1. ComfyUI-WanVideoWrapper:https://github.com/kijai/ComfyUI-WanVideoWrapper


模型要下载配套的,支持单人和多人。

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/InfiniteTalk

https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/InfiniteTalk


下面是官方那边的模型地址: https://huggingface.co/MeiGen-AI/InfiniteTalk/tree/main/single

下面是GGUF https://huggingface.co/Kijai/WanVideo_comfy_GGUF/tree/main/InfiniteTalk

下面是Wan的gguf https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main


三、测试体验


工作流已发RunningHub平台:

  1. 最新数字人InfiniteTalk -图片+音频=高质量数字人(支持超长时间):https://www.runninghub.cn/post/1957814463565066242/?inviteCode=kol01-rh024


只能说无敌了,不管是唱歌还是说话,都非常完美。

说一下我测试的效果,长边限制832的基础上,在RH平台48G显存跑的时间:

  1. 11秒视频跑了6分44秒
  2. 56秒视频跑了25分钟
  3. 80秒视频跑了31分钟
  4. 85秒视频跑了35分钟

理论上低显存也可以,把block开到最大40,16G应该也可以跑起来。


3.1模型加载

这里还是用Wan2.1的I2v图生视频模型,你可以改成其他类似的,比如AniWan或者FusionX都行。 然后最重要的是加载这个最新的InfiniteTalk的lora,分单人和多人,今天我们测试的还是用单人这个模型。


3.2 采样处理

采样这块处理上面我圈中的是核心节点,也是这次更新添加的,图片经过缩放处理后就接入到WanVideo Image To Video MultiTalk节点,这里mode属性要记得选择InfiniteTalk,上下文窗口这里默认设置81帧,这个就是决定了它能无限生成视频的关键所在,但是有一个注意点,下面会说到。

调度器我们选择 flowmatch_distill,这个限制只能4步迭代,这样速度又快效果又不错。


3.3 参数介绍

最后说一下大家怎么操作

上传你的图片,加载你的音频,然后选择生成的秒时间,这个根据你的音频来决定,不要超过最大时间即可。


然后限制下最长边长,填写提示词就行,说话或者唱歌。


案例展示

一个女孩在唱歌


局限性

视频转视频以及多人的后面再分享,今天大家先玩图生视频

不过有个小问题,因为这个是上下文81帧循环采样,它会每次都执行你的提示词,我跑过一个视频,我让提示词写摘下眼镜,她就会重复做这个动作,很搞笑。我问过KJ大佬,确实会这样


KJ的回复,可以改,支持提示词调度,每81帧一次提示词,不过这样需要该代码,不懂KJ大佬后面会不会调整。


四、在线使用


云端镜像


大家如果没有本地 ComfyUI 环境,或者本地显卡配置低于 16G 的,可以使用嘟嘟部署的仙宫云镜像,可直接加载使用。后续分享的工作流都会更像到镜像中,一周更新一次,方便大学学习。

目前整合了2个镜像,一个是Flux绘图用的,另外一个是针对视频模型的,之所以分开是一些模型兼容问题,分开比较好处理。

镜像名称:嘟嘟AI绘画趣味学

 


云平台镜像地址:

https://www.xiangongyun.com/image/detail/d961a7dc-ade3-4bd5-a7c6-92ac49ff5e4b?r=37BCLY

https://www.xiangongyun.com/image/detail/81716d29-4461-4b0b-ba4b-7b9b7dd569d3?r=37BCLY


新用户通过邀请码注册,总共可获得 8 元奖励,体验 4 个小时的 4090 作图时长


RH平台


推荐不想本地自己折腾的同学一个可在线使用Runninghub平台可在线体验AI应用和工作流(注册即送1000积分可用)。

https://www.runninghub.cn/?inviteCode=kol01-rh024


主页更多精彩工作流可在线体验: https://www.runninghub.cn/user-center/1865434314359058434?inviteCode=kol01-rh024


五、总结


以上就是今天的王炸最强开源数字人InfiniteTalk的介绍了,这个真是王炸级别的,嘟嘟最近就在给客户做电商领域的数字人,遇到的问题就是唇形同步差点意思,不能生成超长时间的,而这个InfiniteTalk全部解决了这个问题,太强了,大家快来玩吧。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
3D 视觉 / 虚拟数字人
视频生成大模型
音画同步
开源大模型
模型部署
电商视频