1 月 29 日,蚂蚁灵波科技发布并开源了世界模型 LingBot-World。
这次它直接对标 Google DeepMind 的闭源王牌 Genie 3,并在多项关键指标上逼近,甚至超越。
每当硅谷巨头试图闭源垄断,中国技术团队就会站出来,把进入下个时代的钥匙,免费交到了全球开发者手中。
如果你熟悉近两年的 AI 发展,就会立刻意识到这件事的分量。
Genie 3 是什么?
它是 Google DeepMind 在 2025 年夏天推出的世界模型,被视为通往 AGI 的关键基石,元宇宙的雏形。一个可以从文本出发,实时生成、可交互、具备物理一致性的三维世界。你能在里面行走、转向、操作物体,甚至训练智能体完成任务。
但 Genie 3 是闭源的,作为开发者,你只能通过 Google Labs 的 Project Genie 或 Ultra 订阅试玩,无法把它变成研究工具,更别说作为机器人训练的基础设施。
而 LingBot-World 的出现,打破了这种垄断。它不仅开源了代码和权重,更是在长时记忆和物理一致性上,给出了当前最优解。
这是国内 AI 技术的再次截胡,也是对硅谷巨头的直接迎战。
有哪些优势
要理解 LingBot-World 的意义,必须先澄清一个误区。对于普通用户来说,可能觉得只是一个能互动的Sora、即梦,但对于机器人和具身智能来说,这是一个最佳训练场。
长时记忆
过去两年,视频生成模型的进步肉眼可见。但几乎所有模型,时间一长,就开始胡说八道。
主角转个身,衣服换了;镜头一切,桌子没了;再多看几秒,房子开始融化。
这是 AI 的认知问题,模型认为只要我看不见,这东西就不存在。它不理解这个东西只要存在,我不看也应该存在。
LingBot-World 对准的正是这个,在官方压力测试中,它可以实现接近 10 分钟的连续稳定生成。
更关键的是,在高动态环境下,镜头移开 60 秒再回来,房子还在原地,车辆还沿着合理的轨迹运动,光影关系也能对得上。
这是模型开始具备一种接近人类直觉的能力:世界不是由一帧一帧的像素拼起来的,而是一个持续存在、可以被预测的整体。
你可以把这理解为,LingBot-World 让视频模型,拥有了类似人类的认知,它记住了当下,也记住了要长时间维持虚拟世界。
物理一致性
如果说长时记忆解决的是时间,那物理一致性解决的,就是因果。
传统生成模型,本质上是在预测下一个像素块,所以它的训练数据越多,预测得越准确,画面越逼真。
LingBot-World 的训练并不只来自网络视频,还大量引入了游戏环境与虚幻引擎数据,直接从渲染层学习。
结果是,模型开始理解一些基础且重要的规律:挥刀有惯性;水流服从重力;车辆离开视野后,不会凭空消失,而是沿着轨迹继续运动。
这也是为什么很多开发者在试玩 Demo 后会有一种强烈的不适感:因为这不是视频,而更像一个正在运行的世界,只是这个世界的物理定律还不完善。
交互性
还有一个经常被低估的指标:实时交互。LingBot-World 可以做到约 16 FPS 的生成速度,并将端到端延迟控制在 1 秒以内。
这意味着什么?意味着你可以用键盘控制角色移动,调整视角,触发事件,画面会即时响应。
很多人第一反应是:这不就是个 AI 算出来的 GTA 6 吗?
但真正重要的,不是像不像游戏,而是交互闭环是否成立。当一个世界能稳定运行、能被操作、能遵循物理规则,它就具备了被智能体反复探索和学习的价值。
从这一刻起,世界模型已经能作为训练环境,训练机器人了。
机器人的野望
如果你回看蚂蚁灵波最近的发布会节奏,会发现一个耐人寻味的情况。就在几天前,他们刚刚开源了 LingBot-VLA,一个视觉-语言-动作模型;紧接着,又发布了 LingBot-World。
这不是巧合。
在具身智能领域,有一个长期存在的矛盾:真实世界太贵,虚拟世界太假。
VLA 模型负责在真实世界中执行动作:看见 → 理解 → 行动。但现实中的试错成本极高,机器人摔一次,可能就是几万块。
世界模型,恰恰补上了这块短板。VLA 负责把感知变成动作;World Model 负责在虚拟世界中推演未来。机器人可以在 LingBot-World 里,反复练习走路、避障、抓取,摔倒一万次,直到策略稳定,再把经验迁移到真实世界。
当世界是稳定的,时间是连续的,动作和结果是因果一致的,智能体才能真正学会长期规划。这也解决的是具身智能三大难题:数据获取难、训练成本高、泛化能力弱。
而一旦这三点被撬动,机器人不再只是执行单一指令的机器,而开始具备理解世界的可能,这也是英伟达、特斯拉正在做的事。
开源的影响
LingBot-World 最具冲击力的地方,在于开源。
Genie 3 的最拿得出手的,从来不只是性能,而是独占。但当能力被开源,光环就没了。这也是为什么,在 LingBot-World 发布后,推特(X)的讨论很快从"好不好玩",转向了一个问题:DeepMind 会不会跟着开源,或开放更多权限?
Genie 3 已经不再是唯一选择。对于创业公司和学术界来说,世界模型不再是少数巨头的专利,研究者可以在现成的 SOTA 基座上做改造、做实验、做组合。
自动驾驶、家用机器人、仿真训练、游戏 Agent,所有需要"长期、稳定、可交互世界"的方向,门槛都被降低了。
结语
蚂蚁灵波选择了一条最艰难、也最宽的路:做基座,做开源。
这不仅是一行行代码的开放,更是一种技术自信。而巨头之间的这场战争,才刚刚开始。



