智源大会世界模型分论坛：昆仑万维Matrix-Game提出状态-动作联合生成框架

2026-06-15 14:36:17

文章摘要

6月12 - 13日，第八届智源大会在北京举办，世界模型是核心议题之一。昆仑万维Skywork刘扬在世界模型分论坛演讲，提出“状态 - 动作联合生成”框架，介绍Matrix - Game 3.5进展。该项目发展快，3.5版有新突破，还分享训练难题及应对，未来将推动其跨领域发展。

6月12日至13日，第八届智源大会在北京顺利举办。这场行业盛会吸引了2位图灵奖得主、8位院士、30位30岁以下青年科学家，以及40余位AI企业CEO与创始人到场参会，围绕Agent、世界模型、具身智能、AI自进化与AI安全等前沿技术议题展开了深度探讨。其中，世界模型成为本届大会最受关注的核心议题之一，来自具身智能、机器人控制、游戏引擎、物理AI基础设施等多个领域的研究者，纷纷分享了各自的技术路线与实践成果。

昆仑万维旗下Skywork的首席科学家刘扬受邀出席了6月13日的世界模型分论坛，不仅发表了主题演讲，还参与了圆桌讨论环节。在以《Matrix-Game：长时序记忆下的实时流式交互式世界模型》为主题的演讲中，刘扬系统梳理了Matrix-Game的研发历程与最新进展，基于对世界模型的长期研究，提出了“下一帧状态生成和动作生成应当联合训练”的全新技术框架，同时首次公开了Matrix-Game 3.5的核心技术突破。据介绍，Matrix-Game 3.5计划于2026年7月正式发布，团队也将在近期对外发布包含更多技术细节的专项报告。

当前全球世界模型赛道的技术路线正快速分化，但行业已逐步形成共识：世界模型已经从纯学术研究命题，演变为机器人、仿真、游戏与通用人工智能底层能力竞争的核心赛道。在国内市场，昆仑万维的Matrix-Game项目是该赛道中起步最早、系统化程度最高的代表性力量之一。

从技术落地路径来看，全球世界模型赛道的主流范式已经逐渐清晰：先通过大规模双向DiT预训练构建基础能力，再利用Self-Forcing或Causal Forcing将模型蒸馏为因果模型，配合KVCache实现流式推理，最终达到25FPS的实时交互水平，同时辅以记忆注入机制解决长时序一致性问题。昆仑万维的Matrix-Game 2.0正是这一技术范式下首个开源的实现方案，而Matrix-Game 3.0则首次系统性地将长时序记忆问题纳入开源解决方案。目前，Skywork的Matrix团队正全力推进从3.0到3.5的版本迭代，核心目标是攻克世界模型长时序生成中的记忆瓶颈，实现5B参数模型在720P分辨率下的实时生成能力。

刘扬在演讲中提到，“世界模型”这一概念在行业内的定义混乱程度远超普遍认知，视频生成、3D表征、交互式模拟器等不同研究方向的从业者，所指代的对象往往并不一致。基于长期研究，他提出了一套完整的世界模型理解框架：首先是理解当下状态，这一过程需要超越纯视觉信息，真正理解物体级别的物理属性——比如墙体是否可穿越、水体的温度等，纯视觉信号天然无法覆盖这类关键信息；其次是预测下一个状态，在充分理解当前状态的基础上，模型需要对世界的后续演化做出合理推断；最后是将预测结果渲染呈现，让开发者与用户能够直观观测“下一帧”内容。

不过Matrix团队的研究并未止步于此。通过实际训练验证，团队发现了一个更为关键的结论：状态的预测与动作的生成应当采用联合训练的方式，而非拆分独立训练。当把下一帧状态生成和动作生成结合起来进行联合训练后，无论是状态理解能力，还是状态与动作的预测精度，都得到了显著提升。在刘扬看来，真正完整的世界模型，应当实现对状态与动作的联合理解与联合生成，而非单向的观测世界、预测下一帧。根据具体的应用场景，模型可以侧重输出状态用于交互模拟器，也可以侧重输出动作用于机器人控制，这一统一框架正是Skywork团队对世界模型认知的核心升级。

从研发之初，Matrix团队就选择游戏作为世界模型训练与交互验证的切入点。刘扬表示，游戏天然是世界模型的完美载体：给定视觉输入与当前状态，接收玩家的动作指令并输出下一帧画面，这一循环与世界模型的核心任务完全同构；同时游戏引擎能够在可控条件下生成高质量数据，并精确记录视觉画面与对应动作，这是自然界的视频数据无法替代的宝贵资源。

自2024年下半年启动研发以来，Matrix-Game在不到两年的时间里完成了多次关键技术跨越：2025年3月发布Matrix-Game 1.0，成为全球范围内最早公开的可交互世界模型之一；2025年8月推出Matrix-Game 2.0，这是业界首个实现分钟级实时长序列交互的世界模型，仅需单张B100显卡即可支持720P分辨率下25FPS的运行效果，从概念验证阶段走向了工业级可部署的方案，同时也是该赛道首个开源实现方案。Matrix-Game 2.0获得了顶级学术团队的高度认可，Diffusion Transformer（DiT）作者、纽约大学助理教授谢赛宁的团队就基于该开源底座，发布了全球首个多人视频世界模型Solaris，充分彰显了Matrix-Game 2.0在基础模型领域的技术影响力与开源生态价值；2026年3月，团队发布Matrix-Game 3.0，5B参数的蒸馏模型实现了720P分辨率下40FPS的实时生成能力，补齐了世界模型公认的三大短板——记不住的记忆问题、跑不久的长时程问题、跑不动的实时性问题，正式跻身全球第一梯队。

本次演讲首次系统披露的Matrix-Game 3.5版本，最大的变化在于从游戏场景向真实场景的全面扩展，支持多风格动态切换与指令控制，同时引入了NPC交互能力，此外还对长时记忆能力进行了全新升级。刘扬用一句话概括了对世界模型未来发展的判断：“世界模型不应只是一个仿真器，而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成，根据应用场景自由组合。”

刘扬在演讲中强调，数据是决定世界模型能力下限的核心因素。团队在实践中发现，传统的数据采集方式存在三大痛点：人工采集成本高昂、实机采集耗时耗力且效率极低，无法满足大模型规模化训练的需求。因此世界模型需要全新的数据生成方式，能够无限生成带有物理因果关系的训练数据，实现全自动、高效率、低成本的数据生产。

为此，Skywork团队构建了三条自动化数据生产管线，能够输出Video+Pose+Action+Language的高质量世界模型训练数据。截至目前，这套无限数据引擎已经产出了500万+高质量视频切片、1万+有效训练小时，覆盖了1200+游戏场景。这一数据引擎的具体实现分为三个层面：第一是基于Unreal Engine 5的自主探索管线，团队在UE5中搭建常见游戏场景，部署RL Agent进行自由探索，在探索过程中实现毫秒级同步采集，完整记录视觉画面、动作状态及相关语义信息；第二是跨游戏自动化控制与探索管线，覆盖《GTA V》《荒野大镖客2》《赛博朋克2077》等主流3A游戏，实现跨游戏的自动控制、自动探索、自动录制与自动标注；第三是开放平台视频自动挖掘管线，从开放平台自动获取游戏视频，通过视觉大模型（VLM）评分筛选高质量片段，自动完成镜头切分、过滤与结构化标注。

本次演讲中，刘扬团队还花了大量篇幅阐述训练过程中遭遇的独特难题，这些细节通常不会在学术论文中呈现，却也是最引发现场观众关注的部分，为行业内的世界模型训练提供了诸多实战经验参考。

第一个挑战是动作信号与视觉画面缺乏一一对应关系。大规模爬取游戏视频数据在理论上看似可行，但实际操作中会发现：游戏画面向右上45度偏转，可能由鼠标操作、键盘操作，或是键鼠组合操作完成——同一视觉变化对应多种不同的动作，这会让模型在学习时陷入严重的歧义。刘扬指出：“爬数据本身并不能解决动作标注的问题。我们需要大量主动构建数据场景，明确告诉模型：在这种情况下，物理规则是什么。”

第二个挑战是模型能够理解动作指令，但无法理解动作带来的物理后果。以《荒野大镖客》为例，模型很早就可以理解“往前走”的动作指令，但当游戏主角走到墙体前方时，模型无法认知“墙体不可穿越”的物理规则，会直接生成穿墙的画面内容。理解动作的含义与理解该动作在物理世界中产生的实际结果，是两项完全不同的任务。针对这一问题，团队建立了一套主动数据标注体系，通过大量手工构建边界场景，将这些“昂贵但不可跳过”的物理知识注入到训练数据中。

第三个挑战是注入控制参数会破坏原始视频的分布特征。从1.0到3.0版本，团队一直将动作控制信号作为额外参数注入模型——鼠标信号通过Self-Attention注入，键盘信号通过Cross-Attention注入。这一直观的做法带来了持续的代价：每次加入额外参数都会破坏模型对原始视频分布的认知，需要花费大量额外的训练时间来“修复”基础能力。在3.5版本中，团队对此做出了根本性的改变：不再引入额外参数，转而采用PRoPE（Projective Position Encoding）机制，通过相机投影矩阵让模型直接感知相机的相对位姿。这一调整不仅降低了对原始视频分布的破坏，还极大增强了模型的泛化能力。

第四个挑战是记忆检索方式决定了长时程一致性的上限。早期版本的记忆机制是原样存储历史帧，在推理时检索相关帧并拼接到上下文中。这一方法存在明显的缺陷：会占用大量的上下文窗口、跨帧拼接时容易出现画面冲突、难以实现灵活的记忆更新。3.5版本对此进行了架构层面的升级：将历史帧切分为三维坐标系下的空间块（spatial tokens），在检索时按照空间位置进行匹配，再重组为当前视角的记忆图。这一设计带来了三重优势：画面一致性更高、相机轨迹保持更稳定，同时记忆可以随时进行更新、替换与删除，灵活性得到了大幅提升。

刘扬最后展望了团队的未来目标：构建原生统一的世界模型框架，让状态理解与动作生成从串联走向联合，从分裂走向统一。以此为支点，团队将推动世界模型跨越游戏的边界，迈向机器人控制与物理世界交互的广阔疆域。他相信，世界模型终将成为通用人工智能的关键基石，重新定义智能体与物理世界的每一次交互。在这条探索之路上，昆仑万维将持续深耕，步履不停。

你的AIGC知识价值，正在被看见！塔猴AI达人星火计划，发布课程，赢现金激励！点击加入活动：https://www.tahou.com/article/206587263682970629

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考