文章摘要
6月12 - 13日,第八届智源大会在北京举办,世界模型是核心议题之一。昆仑万维Skywork刘扬在世界模型分论坛演讲,提出“状态 - 动作联合生成”框架,介绍Matrix - Game 3.5进展。该项目发展快,3.5版有新突破,还分享训练难题及应对,未来将推动其跨领域发展。

6月12日至13日,第八届智源大会在北京顺利举办。这场行业盛会吸引了2位图灵奖得主、8位院士、30位30岁以下青年科学家,以及40余位AI企业CEO与创始人到场参会,围绕Agent、世界模型、具身智能、AI自进化与AI安全等前沿技术议题展开了深度探讨。其中,世界模型成为本届大会最受关注的核心议题之一,来自具身智能、机器人控制、游戏引擎、物理AI基础设施等多个领域的研究者,纷纷分享了各自的技术路线与实践成果。

昆仑万维旗下Skywork的首席科学家刘扬受邀出席了6月13日的世界模型分论坛,不仅发表了主题演讲,还参与了圆桌讨论环节。在以《Matrix-Game:长时序记忆下的实时流式交互式世界模型》为主题的演讲中,刘扬系统梳理了Matrix-Game的研发历程与最新进展,基于对世界模型的长期研究,提出了“下一帧状态生成和动作生成应当联合训练”的全新技术框架,同时首次公开了Matrix-Game 3.5的核心技术突破。据介绍,Matrix-Game 3.5计划于2026年7月正式发布,团队也将在近期对外发布包含更多技术细节的专项报告。

当前全球世界模型赛道的技术路线正快速分化,但行业已逐步形成共识:世界模型已经从纯学术研究命题,演变为机器人、仿真、游戏与通用人工智能底层能力竞争的核心赛道。在国内市场,昆仑万维的Matrix-Game项目是该赛道中起步最早、系统化程度最高的代表性力量之一。

从技术落地路径来看,全球世界模型赛道的主流范式已经逐渐清晰:先通过大规模双向DiT预训练构建基础能力,再利用Self-Forcing或Causal Forcing将模型蒸馏为因果模型,配合KVCache实现流式推理,最终达到25FPS的实时交互水平,同时辅以记忆注入机制解决长时序一致性问题。昆仑万维的Matrix-Game 2.0正是这一技术范式下首个开源的实现方案,而Matrix-Game 3.0则首次系统性地将长时序记忆问题纳入开源解决方案。目前,Skywork的Matrix团队正全力推进从3.0到3.5的版本迭代,核心目标是攻克世界模型长时序生成中的记忆瓶颈,实现5B参数模型在720P分辨率下的实时生成能力。

刘扬在演讲中提到,“世界模型”这一概念在行业内的定义混乱程度远超普遍认知,视频生成、3D表征、交互式模拟器等不同研究方向的从业者,所指代的对象往往并不一致。基于长期研究,他提出了一套完整的世界模型理解框架:首先是理解当下状态,这一过程需要超越纯视觉信息,真正理解物体级别的物理属性——比如墙体是否可穿越、水体的温度等,纯视觉信号天然无法覆盖这类关键信息;其次是预测下一个状态,在充分理解当前状态的基础上,模型需要对世界的后续演化做出合理推断;最后是将预测结果渲染呈现,让开发者与用户能够直观观测“下一帧”内容。

不过Matrix团队的研究并未止步于此。通过实际训练验证,团队发现了一个更为关键的结论:状态的预测与动作的生成应当采用联合训练的方式,而非拆分独立训练。当把下一帧状态生成和动作生成结合起来进行联合训练后,无论是状态理解能力,还是状态与动作的预测精度,都得到了显著提升。在刘扬看来,真正完整的世界模型,应当实现对状态与动作的联合理解与联合生成,而非单向的观测世界、预测下一帧。根据具体的应用场景,模型可以侧重输出状态用于交互模拟器,也可以侧重输出动作用于机器人控制,这一统一框架正是Skywork团队对世界模型认知的核心升级。

从研发之初,Matrix团队就选择游戏作为世界模型训练与交互验证的切入点。刘扬表示,游戏天然是世界模型的完美载体:给定视觉输入与当前状态,接收玩家的动作指令并输出下一帧画面,这一循环与世界模型的核心任务完全同构;同时游戏引擎能够在可控条件下生成高质量数据,并精确记录视觉画面与对应动作,这是自然界的视频数据无法替代的宝贵资源。

自2024年下半年启动研发以来,Matrix-Game在不到两年的时间里完成了多次关键技术跨越:2025年3月发布Matrix-Game 1.0,成为全球范围内最早公开的可交互世界模型之一;2025年8月推出Matrix-Game 2.0,这是业界首个实现分钟级实时长序列交互的世界模型,仅需单张B100显卡即可支持720P分辨率下25FPS的运行效果,从概念验证阶段走向了工业级可部署的方案,同时也是该赛道首个开源实现方案。Matrix-Game 2.0获得了顶级学术团队的高度认可,Diffusion Transformer(DiT)作者、纽约大学助理教授谢赛宁的团队就基于该开源底座,发布了全球首个多人视频世界模型Solaris,充分彰显了Matrix-Game 2.0在基础模型领域的技术影响力与开源生态价值;2026年3月,团队发布Matrix-Game 3.0,5B参数的蒸馏模型实现了720P分辨率下40FPS的实时生成能力,补齐了世界模型公认的三大短板——记不住的记忆问题、跑不久的长时程问题、跑不动的实时性问题,正式跻身全球第一梯队。

本次演讲首次系统披露的Matrix-Game 3.5版本,最大的变化在于从游戏场景向真实场景的全面扩展,支持多风格动态切换与指令控制,同时引入了NPC交互能力,此外还对长时记忆能力进行了全新升级。刘扬用一句话概括了对世界模型未来发展的判断:“世界模型不应只是一个仿真器,而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成,根据应用场景自由组合。”

刘扬在演讲中强调,数据是决定世界模型能力下限的核心因素。团队在实践中发现,传统的数据采集方式存在三大痛点:人工采集成本高昂、实机采集耗时耗力且效率极低,无法满足大模型规模化训练的需求。因此世界模型需要全新的数据生成方式,能够无限生成带有物理因果关系的训练数据,实现全自动、高效率、低成本的数据生产。

为此,Skywork团队构建了三条自动化数据生产管线,能够输出Video+Pose+Action+Language的高质量世界模型训练数据。截至目前,这套无限数据引擎已经产出了500万+高质量视频切片、1万+有效训练小时,覆盖了1200+游戏场景。这一数据引擎的具体实现分为三个层面:第一是基于Unreal Engine 5的自主探索管线,团队在UE5中搭建常见游戏场景,部署RL Agent进行自由探索,在探索过程中实现毫秒级同步采集,完整记录视觉画面、动作状态及相关语义信息;第二是跨游戏自动化控制与探索管线,覆盖《GTA V》《荒野大镖客2》《赛博朋克2077》等主流3A游戏,实现跨游戏的自动控制、自动探索、自动录制与自动标注;第三是开放平台视频自动挖掘管线,从开放平台自动获取游戏视频,通过视觉大模型(VLM)评分筛选高质量片段,自动完成镜头切分、过滤与结构化标注。

本次演讲中,刘扬团队还花了大量篇幅阐述训练过程中遭遇的独特难题,这些细节通常不会在学术论文中呈现,却也是最引发现场观众关注的部分,为行业内的世界模型训练提供了诸多实战经验参考。

第一个挑战是动作信号与视觉画面缺乏一一对应关系。大规模爬取游戏视频数据在理论上看似可行,但实际操作中会发现:游戏画面向右上45度偏转,可能由鼠标操作、键盘操作,或是键鼠组合操作完成——同一视觉变化对应多种不同的动作,这会让模型在学习时陷入严重的歧义。刘扬指出:“爬数据本身并不能解决动作标注的问题。我们需要大量主动构建数据场景,明确告诉模型:在这种情况下,物理规则是什么。”

第二个挑战是模型能够理解动作指令,但无法理解动作带来的物理后果。以《荒野大镖客》为例,模型很早就可以理解“往前走”的动作指令,但当游戏主角走到墙体前方时,模型无法认知“墙体不可穿越”的物理规则,会直接生成穿墙的画面内容。理解动作的含义与理解该动作在物理世界中产生的实际结果,是两项完全不同的任务。针对这一问题,团队建立了一套主动数据标注体系,通过大量手工构建边界场景,将这些“昂贵但不可跳过”的物理知识注入到训练数据中。

第三个挑战是注入控制参数会破坏原始视频的分布特征。从1.0到3.0版本,团队一直将动作控制信号作为额外参数注入模型——鼠标信号通过Self-Attention注入,键盘信号通过Cross-Attention注入。这一直观的做法带来了持续的代价:每次加入额外参数都会破坏模型对原始视频分布的认知,需要花费大量额外的训练时间来“修复”基础能力。在3.5版本中,团队对此做出了根本性的改变:不再引入额外参数,转而采用PRoPE(Projective Position Encoding)机制,通过相机投影矩阵让模型直接感知相机的相对位姿。这一调整不仅降低了对原始视频分布的破坏,还极大增强了模型的泛化能力。

第四个挑战是记忆检索方式决定了长时程一致性的上限。早期版本的记忆机制是原样存储历史帧,在推理时检索相关帧并拼接到上下文中。这一方法存在明显的缺陷:会占用大量的上下文窗口、跨帧拼接时容易出现画面冲突、难以实现灵活的记忆更新。3.5版本对此进行了架构层面的升级:将历史帧切分为三维坐标系下的空间块(spatial tokens),在检索时按照空间位置进行匹配,再重组为当前视角的记忆图。这一设计带来了三重优势:画面一致性更高、相机轨迹保持更稳定,同时记忆可以随时进行更新、替换与删除,灵活性得到了大幅提升。

刘扬最后展望了团队的未来目标:构建原生统一的世界模型框架,让状态理解与动作生成从串联走向联合,从分裂走向统一。以此为支点,团队将推动世界模型跨越游戏的边界,迈向机器人控制与物理世界交互的广阔疆域。他相信,世界模型终将成为通用人工智能的关键基石,重新定义智能体与物理世界的每一次交互。在这条探索之路上,昆仑万维将持续深耕,步履不停。


你的AIGC知识价值,正在被看见!塔猴AI达人星火计划,发布课程,赢现金激励!点击加入活动:https://www.tahou.com/article/206587263682970629

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考