蚂蚁发布开源世界模型 LingBot-World，截胡谷歌-阿司匹林-塔猴

蚂蚁发布开源世界模型 LingBot-World，截胡谷歌

2026-01-30 16:57:22

文章摘要

蚂蚁发布并开源世界模型LingBot-World，对标GoogleDeepMind的王牌Genie3，在长时记忆、物理一致性等多项关键指标逼近或超越。

1 月 29 日，蚂蚁灵波科技发布并开源了世界模型 LingBot-World。

这次它直接对标 Google DeepMind 的闭源王牌 Genie 3，并在多项关键指标上逼近，甚至超越。

每当硅谷巨头试图闭源垄断，中国技术团队就会站出来，把进入下个时代的钥匙，免费交到了全球开发者手中。

如果你熟悉近两年的 AI 发展，就会立刻意识到这件事的分量。

LingBot-World生成的滑雪场景

Genie 3 是什么？

它是 Google DeepMind 在 2025 年夏天推出的世界模型，被视为通往 AGI 的关键基石，元宇宙的雏形。一个可以从文本出发，实时生成、可交互、具备物理一致性的三维世界。你能在里面行走、转向、操作物体，甚至训练智能体完成任务。

但 Genie 3 是闭源的，作为开发者，你只能通过 Google Labs 的 Project Genie 或 Ultra 订阅试玩，无法把它变成研究工具，更别说作为机器人训练的基础设施。

而 LingBot-World 的出现，打破了这种垄断。它不仅开源了代码和权重，更是在长时记忆和物理一致性上，给出了当前最优解。

这是国内 AI 技术的再次截胡，也是对硅谷巨头的直接迎战。

Genie 3生成的太空场景

有哪些优势

要理解 LingBot-World 的意义，必须先澄清一个误区。对于普通用户来说，可能觉得只是一个能互动的Sora、即梦，但对于机器人和具身智能来说，这是一个最佳训练场。

长时记忆

过去两年，视频生成模型的进步肉眼可见。但几乎所有模型，时间一长，就开始胡说八道。

主角转个身，衣服换了；镜头一切，桌子没了；再多看几秒，房子开始融化。

这是 AI 的认知问题，模型认为只要我看不见，这东西就不存在。它不理解这个东西只要存在，我不看也应该存在。

LingBot-World 对准的正是这个，在官方压力测试中，它可以实现接近 10 分钟的连续稳定生成。

更关键的是，在高动态环境下，镜头移开 60 秒再回来，房子还在原地，车辆还沿着合理的轨迹运动，光影关系也能对得上。

长时间轨迹中保持物体永久性

这是模型开始具备一种接近人类直觉的能力：世界不是由一帧一帧的像素拼起来的，而是一个持续存在、可以被预测的整体。

你可以把这理解为，LingBot-World 让视频模型，拥有了类似人类的认知，它记住了当下，也记住了要长时间维持虚拟世界。

物理一致性

如果说长时记忆解决的是时间，那物理一致性解决的，就是因果。

传统生成模型，本质上是在预测下一个像素块，所以它的训练数据越多，预测得越准确，画面越逼真。

LingBot-World 的训练并不只来自网络视频，还大量引入了游戏环境与虚幻引擎数据，直接从渲染层学习。

结果是，模型开始理解一些基础且重要的规律：挥刀有惯性；水流服从重力；车辆离开视野后，不会凭空消失，而是沿着轨迹继续运动。

左：Genie 3，右：LingBot-World

这也是为什么很多开发者在试玩 Demo 后会有一种强烈的不适感：因为这不是视频，而更像一个正在运行的世界，只是这个世界的物理定律还不完善。

交互性

还有一个经常被低估的指标：实时交互。LingBot-World 可以做到约 16 FPS 的生成速度，并将端到端延迟控制在 1 秒以内。

这意味着什么？意味着你可以用键盘控制角色移动，调整视角，触发事件，画面会即时响应。

高质量实时渲染场景

很多人第一反应是：这不就是个 AI 算出来的 GTA 6 吗？

但真正重要的，不是像不像游戏，而是交互闭环是否成立。当一个世界能稳定运行、能被操作、能遵循物理规则，它就具备了被智能体反复探索和学习的价值。

从这一刻起，世界模型已经能作为训练环境，训练机器人了。

机器人的野望

如果你回看蚂蚁灵波最近的发布会节奏，会发现一个耐人寻味的情况。就在几天前，他们刚刚开源了 LingBot-VLA，一个视觉-语言-动作模型；紧接着，又发布了 LingBot-World。

这不是巧合。

在具身智能领域，有一个长期存在的矛盾：真实世界太贵，虚拟世界太假。

VLA 模型负责在真实世界中执行动作：看见 → 理解 → 行动。但现实中的试错成本极高，机器人摔一次，可能就是几万块。

世界模型，恰恰补上了这块短板。VLA 负责把感知变成动作；World Model 负责在虚拟世界中推演未来。机器人可以在 LingBot-World 里，反复练习走路、避障、抓取，摔倒一万次，直到策略稳定，再把经验迁移到真实世界。

当世界是稳定的，时间是连续的，动作和结果是因果一致的，智能体才能真正学会长期规划。这也解决的是具身智能三大难题：数据获取难、训练成本高、泛化能力弱。

而一旦这三点被撬动，机器人不再只是执行单一指令的机器，而开始具备理解世界的可能，这也是英伟达、特斯拉正在做的事。

开源的影响

LingBot-World 最具冲击力的地方，在于开源。

左：Genie 3，右：LingBot-World

Genie 3 的最拿得出手的，从来不只是性能，而是独占。但当能力被开源，光环就没了。这也是为什么，在 LingBot-World 发布后，推特（X）的讨论很快从"好不好玩"，转向了一个问题：DeepMind 会不会跟着开源，或开放更多权限？

Genie 3 已经不再是唯一选择。对于创业公司和学术界来说，世界模型不再是少数巨头的专利，研究者可以在现成的 SOTA 基座上做改造、做实验、做组合。

自动驾驶、家用机器人、仿真训练、游戏 Agent，所有需要"长期、稳定、可交互世界"的方向，门槛都被降低了。

结语

蚂蚁灵波选择了一条最艰难、也最宽的路：做基座，做开源。

中国画风虚拟世界

这不仅是一行行代码的开放，更是一种技术自信。而巨头之间的这场战争，才刚刚开始。

声明：该内容由作者自行发布，观点内容仅供参考，不代表平台立场；如有侵权，请联系平台删除。

标签：

开源大模型

具身智能

视频生成大模型

阿司匹林

关注

加入知识库