蔡浩宇出手!LPM 1.0发布:AI视频从画图进化到灵魂表演

2026-04-13 16:28:10
文章摘要
米哈游创始人蔡浩宇创立Anuttacon后发布LPM1.0模型,这是专注“角色表演”的超大规模模型。

米哈游创始人蔡浩宇在创立Anuttacon后,抛出了第一颗重磅炸弹:LPM 1.0模型。这不仅仅是一个视频生成工具,而是一个专注于“角色表演”的超大规模模型,拥有170亿参数。在当前所有大厂都在卷“文生视频”时长和分辨率的时候,蔡浩宇团队选择了一个更硬核的切入点:如何让AI生成的虚拟角色,在长时间的对话和互动中,始终保持一致的“灵魂”。这标志着AI视觉技术正式告别“抽卡式”生成,进入了“智能体表演”的新赛道。视频生成的下半场,谁能解决“身份一致性”和“实时交互感”,谁就能掌控游戏NPC和数字人的未来。LPM 1.0证明了,即便不开源,只要能把特定的垂直任务(表演)做到极致,依然高过目前的通用视频模型形。

LPM 1.0:捅破视频生成的“身份屏障”


现在的AI视频模型太多了,但绝大多数产品有一个致命伤:它们是“一次性”的。你生成一个动作可以,但想让同一个角色连续表演几分钟,角色就会崩掉。蔡浩宇团队发布的LPM 1.0(Large Performance Model),专门就是为了解决这个“表演三难”——高表现力、实时推理、长时稳定性。

LPM 1.0 抛弃了过时的U-Net结构,选择了DiT(Diffusion Transformer)架构。这意味着它不再把视频当成简单的图片叠加,而是将空间、时间、条件信息全部转化为Token进行全局建模。

参数量达到170亿,这是一个非常微妙的规模。对于视频生成来说,它足够装载复杂的表演逻辑,同时又没有庞大到无法实时推理。它不追求一次生成五分钟,而是追求在无限长的时间内,通过用户的音频或文本指令,实时驱动这个虚拟角色“表演”。

过去我们玩AI视频,最怕的是角色换装,上一秒是JK制服,下一秒就成了运动装。LPM 1.0对此做了针对性训练。

它通过全局外观参考、多视角面部范例输入,强制模型记住这个人的每一寸骨相和妆容。实测证明,在《唐顿庄园》互换人物的测试中,即使互换位置,人物的服饰、饰品细节、表情纹理都没有出现明显的崩坏,这意味着其语义映射已经精准到了“角色实体”级别,而不是简单的“画面内容”。

我们的点评:很多模型生成视频像是在抽盲盒,而LPM 1.0更像是在执行剧本。这种对身份一致性的把控,才是游戏公司真正需要的生产力。

不仅是NPC,更是一个“活”的数字人格


LPM 1.0 最让人心动的应用场景,其实是游戏和直播。现在的游戏NPC太“死板”了,只有几句预设的台词,而在LPM 1.0的驱动下,游戏中的NPC将拥有真正的“临场决策”和“情绪输出”。

所谓全双工,就是AI能一边倾听用户输入,一边实时给出反馈。你给它一段音频,它立刻输出带有表情的说话视频;你给它合成音频,它能生成同步的对话视频。配合提示词,它能自动完成动作控制。这不再是预先录制好的动作,而是根据对话内容实时生成的动态反应。

这不仅仅是生成,而是构建了一个“视觉引擎”想象一下,当LPM 1.0集成到大型RPG游戏中,NPC不再有固定的台词本。NPC可以根据玩家的行为,自主调整表情(从怀疑到愤怒,再到欣喜)。它支持多种数据输入:文本、图像、视频,甚至是非人形生物。这种泛化能力意味着它可以被套用到几乎任何游戏资产中。

这是游戏开发者的“梦想时刻”。过去,开发团队要为一个NPC设计几十个动画文件,而现在,你只需要给它赋予一个“性格”,LPM 1.0就能自动生成它与玩家对话的所有表情和肢体动作。这不仅省了钱,更关键的是提升了游戏世界的“沉浸感”。如果一个NPC能记得你昨天说了什么,今天见面时还能露出嘲讽的表情,那这个游戏的体验将是革命性的。

蔡浩宇为什么选择“技术闭源”?


Anuttacon团队明确表示,LPM 1.0暂不开源,也不提供API。这在AI界其实是一种非常反常规的做法,但如果我们从战略层面去分析,这恰恰是最高明的经营策略。AI领域的开源模型多如牛毛,但真正好用的、能直接拿来做商业化交互的工具却很少。开源意味着所有人都可以复刻。LPM 1.0如果不开源,就意味着它拥有的这种“长程身份稳定”的技术优势,目前是市场上独一份的。这种稀缺性让它在未来的B端授权、游戏授权中拥有极强的议价权。

团队提到的“在安全保障措施和负责任使用框架切实到位之前不会开放”,其实是一个非常明智的市场预期管理。

AI生成的视频不仅涉及到肖像权,更可能涉及到Deepfake带来的各种社会风险。作为原米哈游创始人,蔡浩宇比任何人都更清楚“舆论风险”对一个顶级IP的毁灭性打击。他选择先在内部验证,再逐步开放,是为了确保技术不会被滥用,从而维护整个产品线的品牌纯度。

LPM 1.0 的发布,不仅是技术的突破,更是一次商业闭环的演练。在一个“多模态”已经成为模型基本配置的时代,LPM 1.0 成功地在“表演”这个细分赛道上找到了自己的落脚点。虽然它目前还未向大众开放,但它所展示的“无限长时、身份一致、全双工交互”能力,已经为未来的AI互动娱乐指明了方向。当AI真的能记住你的喜好、模仿出角色的性格、并在长对话中保持稳定情绪时,那个真正属于AGI时代的交互体验才算刚刚开启。


关注塔猴公众号,扫码下载塔猴APP,查看更多干货

扫码加入官方社群




声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。