蔡浩宇出手！LPM 1.0发布：AI视频从画图进化到灵魂表演

2026-04-13 16:29:12

文章摘要

米哈游创始人蔡浩宇创立Anuttacon后发布LPM1.0模型，这是专注“角色表演”的超大规模模型。

米哈游创始人蔡浩宇在创立Anuttacon后，抛出了第一颗重磅炸弹：LPM 1.0模型。这不仅仅是一个视频生成工具，而是一个专注于“角色表演”的超大规模模型，拥有170亿参数。在当前所有大厂都在卷“文生视频”时长和分辨率的时候，蔡浩宇团队选择了一个更硬核的切入点：如何让AI生成的虚拟角色，在长时间的对话和互动中，始终保持一致的“灵魂”。这标志着AI视觉技术正式告别“抽卡式”生成，进入了“智能体表演”的新赛道。视频生成的下半场，谁能解决“身份一致性”和“实时交互感”，谁就能掌控游戏NPC和数字人的未来。LPM 1.0证明了，即便不开源，只要能把特定的垂直任务（表演）做到极致，依然高过目前的通用视频模型形。

LPM 1.0：捅破视频生成的“身份屏障”

现在的AI视频模型太多了，但绝大多数产品有一个致命伤：它们是“一次性”的。你生成一个动作可以，但想让同一个角色连续表演几分钟，角色就会崩掉。蔡浩宇团队发布的LPM 1.0（Large Performance Model），专门就是为了解决这个“表演三难”——高表现力、实时推理、长时稳定性。

LPM 1.0 抛弃了过时的U-Net结构，选择了DiT（Diffusion Transformer）架构。这意味着它不再把视频当成简单的图片叠加，而是将空间、时间、条件信息全部转化为Token进行全局建模。

参数量达到170亿，这是一个非常微妙的规模。对于视频生成来说，它足够装载复杂的表演逻辑，同时又没有庞大到无法实时推理。它不追求一次生成五分钟，而是追求在无限长的时间内，通过用户的音频或文本指令，实时驱动这个虚拟角色“表演”。

过去我们玩AI视频，最怕的是角色换装，上一秒是JK制服，下一秒就成了运动装。LPM 1.0对此做了针对性训练。

它通过全局外观参考、多视角面部范例输入，强制模型记住这个人的每一寸骨相和妆容。实测证明，在《唐顿庄园》互换人物的测试中，即使互换位置，人物的服饰、饰品细节、表情纹理都没有出现明显的崩坏，这意味着其语义映射已经精准到了“角色实体”级别，而不是简单的“画面内容”。

我们的点评：很多模型生成视频像是在抽盲盒，而LPM 1.0更像是在执行剧本。这种对身份一致性的把控，才是游戏公司真正需要的生产力。

不仅是NPC，更是一个“活”的数字人格

LPM 1.0 最让人心动的应用场景，其实是游戏和直播。现在的游戏NPC太“死板”了，只有几句预设的台词，而在LPM 1.0的驱动下，游戏中的NPC将拥有真正的“临场决策”和“情绪输出”。

所谓全双工，就是AI能一边倾听用户输入，一边实时给出反馈。你给它一段音频，它立刻输出带有表情的说话视频；你给它合成音频，它能生成同步的对话视频。配合提示词，它能自动完成动作控制。这不再是预先录制好的动作，而是根据对话内容实时生成的动态反应。

这不仅仅是生成，而是构建了一个“视觉引擎”想象一下，当LPM 1.0集成到大型RPG游戏中，NPC不再有固定的台词本。NPC可以根据玩家的行为，自主调整表情（从怀疑到愤怒，再到欣喜）。它支持多种数据输入：文本、图像、视频，甚至是非人形生物。这种泛化能力意味着它可以被套用到几乎任何游戏资产中。

这是游戏开发者的“梦想时刻”。过去，开发团队要为一个NPC设计几十个动画文件，而现在，你只需要给它赋予一个“性格”，LPM 1.0就能自动生成它与玩家对话的所有表情和肢体动作。这不仅省了钱，更关键的是提升了游戏世界的“沉浸感”。如果一个NPC能记得你昨天说了什么，今天见面时还能露出嘲讽的表情，那这个游戏的体验将是革命性的。

蔡浩宇为什么选择“技术闭源”？

Anuttacon团队明确表示，LPM 1.0暂不开源，也不提供API。这在AI界其实是一种非常反常规的做法，但如果我们从战略层面去分析，这恰恰是最高明的经营策略。AI领域的开源模型多如牛毛，但真正好用的、能直接拿来做商业化交互的工具却很少。开源意味着所有人都可以复刻。LPM 1.0如果不开源，就意味着它拥有的这种“长程身份稳定”的技术优势，目前是市场上独一份的。这种稀缺性让它在未来的B端授权、游戏授权中拥有极强的议价权。

团队提到的“在安全保障措施和负责任使用框架切实到位之前不会开放”，其实是一个非常明智的市场预期管理。

AI生成的视频不仅涉及到肖像权，更可能涉及到Deepfake带来的各种社会风险。作为原米哈游创始人，蔡浩宇比任何人都更清楚“舆论风险”对一个顶级IP的毁灭性打击。他选择先在内部验证，再逐步开放，是为了确保技术不会被滥用，从而维护整个产品线的品牌纯度。

LPM 1.0 的发布，不仅是技术的突破，更是一次商业闭环的演练。在一个“多模态”已经成为模型基本配置的时代，LPM 1.0 成功地在“表演”这个细分赛道上找到了自己的落脚点。虽然它目前还未向大众开放，但它所展示的“无限长时、身份一致、全双工交互”能力，已经为未来的AI互动娱乐指明了方向。当AI真的能记住你的喜好、模仿出角色的性格、并在长对话中保持稳定情绪时，那个真正属于AGI时代的交互体验才算刚刚开启。

关注塔猴公众号，扫码下载塔猴APP，查看更多干货

扫码加入官方社群

以上内容不代表本平台立场，仅供读者参考