正文目录

暴打谷歌Genie？蚂蚁灵波LingBot-World开源：让AI像玩3A大作一样“造世界”

2026-01-30 17:58:24

具身智能

开源大模型

视频生成大模型

文章摘要

别只盯着Sora了，这款刚开源的世界模型能让你用键盘“玩”进视频里，物理规律都在线。一张图生成10分钟可交互虚拟环境，谷歌这次真要急了。

2026年才刚开局，AI圈的火药味就浓得呛人。

当大洋彼岸的谷歌还在把Genie 3捂在怀里，搞神秘的“闭源秀”时，蚂蚁灵波（Robbyant）直接把桌子掀了——就在1月底，他们一口气开源了具身智能的三大件，其中最炸裂的当属世界模型LingBot-World。

这不是那种只能看几秒钟的“GIF生成器”，而是一个能让你用键盘鼠标实时操控、物理规律长期在线的“虚拟世界”。对于苦于没有训练数据的机器人行业来说，这简直就是天上掉馅饼。

先别听那些晦涩的技术名词，直接来看这个“世界”到底有多真。在第一人称视角下，你甚至可以骑在龙背上俯瞰丛林，画质极其细腻，且支持实时交互：

LingBot-World的第一人称视角演示，展示了极高的动态保真度，左下角显示支持WASD实时操控。视频来源：LingBot-World

01 AI懂画面，但不懂“物理”

目前的AI视频行业，最大的尴尬在于“有皮没骨”。

无法交互： 视频生成了就是定局，用户无法干预走向。

逻辑崩塌： 短时间看挺美，时间一长，物体这就穿模、那儿消失，AI根本不懂因果律。

数据孤岛： 具身智能（机器人）训练太贵太慢，在真实世界里试错成本高得吓人。

行业急需的，不是画质更卷的“画家”，而是懂物理、能交互的“模拟器”。

02 言出法随的“造物主”视角

LingBot-World的核心能力，简单说就是“可玩的视频”。它不仅仅是生成一段影像，而是允许你深度参与其中。

不仅能“动”，还能“改”

LingBot-World最惊艳的功能之一是Promptable World Event（可提示的世界事件）。如下图所示，给定一个初始场景（左侧），你可以通过文字指令彻底改变它的走向。

风格突变： 输入“Ice world”，丛林瞬间冰封，但地形结构保持不变。

因果干预： 输入“Fireworks”（放烟花），天空中炸开绚烂的火花；在罗马许愿池输入“Fish”，水中就会游出锦鲤。这种局部干预（Local Interventions）与全局环境迁移（Global Environmental Shifts）的结合，展示了极强的可控性。

图片来源：论文《Advancing Open-source World Models》

惊人的“记忆力”：生成即记住

对于机器人训练来说，最怕的就是“灾难性遗忘”——镜头一转，刚才的路就不见了。 LingBot-World解决了这个问题。如下图所示，在长达60秒的交互中，当镜头移开巨石阵（Stonehenge）再转回来时，巨石的排列结构纹丝不动；当相机向前移动后回头，远处的桥梁依然在它该在的位置。这种长时序一致性（Long-term Consistency），让它不仅仅是视频生成，而是真正的空间模拟。

图片来源：论文《Advancing Open-source World Models》

03 它是如何“理解”世界的？

为什么LingBot-World能做到谷歌Genie 3都还在攻克的难题？根据蚂蚁灵波发布的论文《Advancing Open-source World Models》，团队并没有从零开始“硬Train”，而是走了几步巧棋。

第一步：混合数据引擎（Hybrid Data Engine）

这是它懂物理的关键。团队不仅用了海量的真实视频，还创新性地引入了虚幻引擎（Unreal Engine）生成的合成数据。如下图所示，系统将计算资源与游戏引擎结合，捕获与动作信号（WASD）和相机状态时间对齐的视觉观测数据。这相当于给模型开了“天眼”，让它直接学习动作与环境变化的因果关系。

图片来源：论文《Advancing Open-source World Models》

第二步：精细化的数据“清洗”与标注

为了让模型听得懂人话并理解物理世界，LingBot-World建立了一套严密的数据分析引擎。从原始数据（Raw Data）出发，经过属性提取、质量过滤，再到语义分析（VLM Profiling）和几何标注，最终生成分层的描述（Caption）。这种分层标注策略将描述拆解为：叙事描述（讲故事）、静态场景描述（只看环境）和时序描述（精确动作），从而实现对背景与运动的完美解耦。

图片来源：论文《Advancing Open-source World Models》

第三步：三阶段进化与DiT架构

模型经历了从“预训练”（学会画画）、“中训练”（注入物理规律）到“后训练”（剑指实时性）的三个阶段。为了实现精准控制，团队采用了DiT（Diffusion Transformer）架构，并设计了独特的动作注入机制。如下图所示，动作信号通过 Plücker 编码器注入，直接调制视频生成的潜变量（Latent），确保了每一次按键都能精准反馈到画面上。

图片来源：论文《Advancing Open-source World Models》

04 性能碾压竞品

光说不练假把式，我们整理了LingBot-World与行业标杆（如Matrix-Game, Genie 3等）的关键实测数据对比。从下表可以看出，LingBot-World是唯一同时兼顾了“通用领域（General Domain）”、“长生成视窗（Long Horizon）”、“高动态度（High Dynamic）”且完全开源的模型。

与近期交互式世界模型的参数对比（Table 1）。LingBot-World 在生成时长、分辨率、实时性及开源属性上全面优于竞品。图片来源：论文《Advancing Open-source World Models》

关键指标解读：

交互延迟 < 1秒： 真正实现了 Real-time Playable。
生成时长 10分钟+： 解决了长时序任务训练难题。
帧率 16 FPS： 保证了流畅的交互体验。
开源（Open-source）： 打破了大厂的技术垄断。

05 Sim-to-Real的降维打击

LingBot-World 的开源，本质上是蚂蚁灵波在构建具身智能的基础设施。它的野心不仅仅是生成视频，而是理解三维空间。

最令人信服的证据来自下图的3D重建测试。LingBot-World 生成的视频不仅仅是像素的堆叠，它具有严谨的空间几何一致性。通过算法，可以直接将生成的视频转化为高质量的3D点云（Point Clouds）。

这意味着，机器人在这个虚拟世界里学到的导航和避障技能，是可以直接迁移到真实（Real）世界的。这才是 Sim-to-Real 的终极奥义。

图片来源：论文《Advancing Open-source World Models》

独到见解：蚂蚁灵波这盘棋，以具身智能为起点，最终指向的很可能是AGI（通用人工智能）的终极形态——理解并模拟整个物理世界。当开发者都习惯了在这套架构上跑数据、训机器人，蚂蚁就成为了具身智能时代的“安卓”。

目前，该项目代码、模型权重及论文已全部在GitHub和Hugging Face开源，感兴趣的开发者可以前往体验：

GitHub: github.com/robbyant/lingbot-world
Hugging Face: huggingface.co/collections/robbyant

以上内容不代表本平台立场，仅供读者参考