蚂蚁发布开源世界模型 LingBot-World,截胡谷歌
2026-01-30 16:57:22
文章摘要
蚂蚁发布并开源世界模型LingBot-World,对标GoogleDeepMind的王牌Genie3,在长时记忆、物理一致性等多项关键指标逼近或超越。

1 月 29 日蚂蚁灵波科技发布并开源了世界模型 LingBot-World

这次它直接对标 Google DeepMind 的闭源王牌 Genie 3,并在多项关键指标上逼近,甚至超越。

每当硅谷巨头试图闭源垄断,中国技术团队就会站出来,把进入下个时代的钥匙,免费交到了全球开发者手中

如果你熟悉近两年的 AI 发展,就会立刻意识到这件事的分量。

LingBot-World生成的滑雪场景

Genie 3 是什么?

它是 Google DeepMind2025 年夏天推出的世界模型,被视为通往 AGI 的关键基石,元宇宙的雏形。一个可以从文本出发,实时生成、可交互、具备物理一致性三维世界。你能在里面行走、转向、操作物体,甚至训练智能体完成任务。

Genie 3 是闭源的,作为开发者,你只能通过 Google LabsProject GenieUltra 订阅试玩,无法把它变成研究工具,更别说作为机器人训练的基础设施。

LingBot-World 的出现,打破了这种垄断。它不仅开源了代码和权重,更是在长时记忆物理一致性上,给出了当前最优解

这是国内 AI 技术的再次截胡,也是对硅谷巨头的直接迎战。

Genie 3生成的太空场景

有哪些优势

要理解 LingBot-World 的意义,必须先澄清一个误区。对于普通用户来说,可能觉得只是一个能互动的Sora即梦,但对于机器人具身智能来说,这是一个最佳训练场

长时记忆

过去两年,视频生成模型的进步肉眼可见。但几乎所有模型,时间一长,就开始胡说八道

主角转个身,衣服换了;镜头一切,桌子没了;再多看几秒,房子开始融化。

这是 AI 的认知问题,模型认为只要我看不见,这东西就不存在。它不理解这个东西只要存在,我不看也应该存在

LingBot-World 对准的正是这个,在官方压力测试中,它可以实现接近 10 分钟的连续稳定生成

更关键的是,在高动态环境下,镜头移开 60 秒再回来,房子还在原地,车辆还沿着合理的轨迹运动,光影关系也能对得上。

长时间轨迹中保持物体永久性

这是模型开始具备一种接近人类直觉的能力:世界不是由一帧一帧的像素拼起来的,而是一个持续存在、可以被预测的整体

你可以把这理解为,LingBot-World 让视频模型,拥有了类似人类的认知,它记住了当下,也记住了要长时间维持虚拟世界

物理一致性

如果说长时记忆解决的是时间,那物理一致性解决的,就是因果

传统生成模型,本质上是在预测下一个像素块,所以它的训练数据越多,预测得越准确,画面越逼真。

LingBot-World 的训练并不只来自网络视频,还大量引入了游戏环境虚幻引擎数据,直接从渲染层学习。

结果是,模型开始理解一些基础且重要的规律:挥刀有惯性;水流服从重力;车辆离开视野后,不会凭空消失,而是沿着轨迹继续运动

左:Genie 3,右:LingBot-World

这也是为什么很多开发者在试玩 Demo 后会有一种强烈的不适感:因为这不是视频,而更像一个正在运行的世界,只是这个世界的物理定律还不完善。

交互性

还有一个经常被低估的指标:实时交互LingBot-World 可以做到约 16 FPS 的生成速度,并将端到端延迟控制在 1 秒以内

这意味着什么?意味着你可以用键盘控制角色移动,调整视角,触发事件,画面会即时响应

高质量实时渲染场景

很多人第一反应是:这不就是个 AI 算出来的 GTA 6 吗?

但真正重要的,不是像不像游戏,而是交互闭环是否成立。当一个世界能稳定运行、能被操作、能遵循物理规则,它就具备了被智能体反复探索和学习的价值。

从这一刻起,世界模型已经能作为训练环境,训练机器人了。


机器人的野望

如果你回看蚂蚁灵波最近的发布会节奏,会发现一个耐人寻味的情况。就在几天前,他们刚刚开源了 LingBot-VLA,一个视觉-语言-动作模型;紧接着,又发布了 LingBot-World

这不是巧合。

具身智能领域,有一个长期存在的矛盾:真实世界太贵,虚拟世界太假

VLA 模型负责在真实世界中执行动作:看见 → 理解 → 行动。但现实中的试错成本极高,机器人摔一次,可能就是几万块

世界模型,恰恰补上了这块短板。VLA 负责把感知变成动作;World Model 负责在虚拟世界中推演未来。机器人可以在 LingBot-World 里,反复练习走路、避障、抓取,摔倒一万次,直到策略稳定,再把经验迁移到真实世界

当世界是稳定的,时间是连续的,动作和结果是因果一致的,智能体才能真正学会长期规划。这也解决的是具身智能三大难题数据获取难训练成本高泛化能力弱

而一旦这三点被撬动,机器人不再只是执行单一指令的机器,而开始具备理解世界的可能,这也是英伟达特斯拉正在做的事。


开源的影响

LingBot-World 最具冲击力的地方,在于开源

左:Genie 3,右:LingBot-World

Genie 3 的最拿得出手的,从来不只是性能,而是独占。但当能力被开源,光环就没了。这也是为什么,在 LingBot-World 发布后,推特(X)的讨论很快从"好不好玩",转向了一个问题:DeepMind 会不会跟着开源,或开放更多权限?

Genie 3 已经不再是唯一选择。对于创业公司学术界来说,世界模型不再是少数巨头的专利,研究者可以在现成的 SOTA 基座上做改造、做实验、做组合。

自动驾驶家用机器人仿真训练游戏 Agent,所有需要"长期、稳定、可交互世界"的方向,门槛都被降低了

结语

蚂蚁灵波选择了一条最艰难、也最宽的路:做基座,做开源


中国画风虚拟世界

这不仅是一行行代码的开放,更是一种技术自信。而巨头之间的这场战争,才刚刚开始。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
开源大模型
具身智能
视频生成大模型