正文目录

李飞飞重磅发声：AI的下一个十年，拼的是“空间智能”

2025-11-18 15:34:42

文章摘要

AI能写博士论文、编复杂代码，却连“把杯子稳稳递到你手上”都做不到？ 2025年11月，AI领域泰斗李飞飞一篇《从文字到世界：空间智能是AI的下一个前沿》，戳破了当前AI的“致命短板”。她提出的“空间智能”与“世界模型”，不仅定义了AI的下一个赛道，更要让机器从“读懂文字”进化到“看懂世界”。这篇就用大白话拆解这个前沿概念，带你摸清AI未来十年的走向。

一、空间智能：人类自带的“隐形导航系统”

先搞懂一个核心问题：什么是空间智能？

它不是高深技术，而是人类每天都在“无意识使用”的生存本能——停车时扫一眼就知道车身能不能过，接住飞来的钥匙不用算抛物线，半睡半醒倒咖啡也不会洒，这些动作背后，都是对“空间关系、物理规律”的直觉判断。

往大了说，空间智能是人类创新的“发动机”：

● 古希腊学者埃拉托色尼，仅凭“不同城市的阴影长度”，就算出了地球周长（误差不到2%）；

● 沃森和克里克，靠搭建DNA三维模型，破解了双螺旋结构的秘密；

● 从洞穴壁画的立体构图，到建筑师设计摩天大楼，本质都是“用空间思维创造世界”。

简单总结：空间智能是连接“感知-想象-行动”的桥梁，让人类既能理解眼前的世界，也能创造不存在的世界——而这，正是当前AI最缺的能力。

二、当前AI的“尴尬”：懂文字，不懂物理

以大语言模型（LLM）为代表的AI，堪称“文字领域的天花板”，但一涉及空间和物理世界，就秒变“小白”，李飞飞在文中直击这些短板：

❌ 基础空间判断差

分不清“桌子左边”和“桌子右边”，估算“杯子到手的距离”全靠猜。

❌ 不会“心智旋转”

给它看一个正放的椅子，再看倒放的同款，它可能认不出来是同一个物体。

❌ 物理规律“零认知”

生成视频里，苹果悬浮不落、人穿过墙壁，模型完全意识不到“违反常识”。

问题的核心在于：人类理解世界是“整体性”的——看到杯子，我们瞬间知道“它是圆的、能装水、掉地上会碎”；而AI只看到“杯子的像素”或“‘杯子’两个字的语义”，没有对物理世界的“真实感知”。

这也是很多AI应用“落地难”的根源：自动驾驶怕撞护栏、家庭机器人碰倒花瓶、VR游戏里走路“穿模”，本质都是空间智能缺失。

三、破解之道：李飞飞提出的“世界模型”

要让AI拥有空间智能，李飞飞给出了答案——世界模型（World Models）。这不是简单升级LLM，而是一种“能理解、生成、交互物理世界”的新一代AI模型，核心必须具备三大能力：

1. 生成性：造一个“符合规律”的世界

不是“画一张图”，而是“造一个能自洽的世界”。比如让模型生成一座虚拟建筑，它不仅要外观逼真，还要符合“力学结构”（不会塌）；生成一段“推箱子”的视频，箱子的移动轨迹必须符合摩擦力规律，不能“飘着走”。

关键词：符合物理，逻辑自洽。

2. 多模态：像人一样“多感官感知”

人类靠“眼睛看、耳朵听、手触摸”感知世界，世界模型也要如此：仅凭一张建筑草图（图像），能生成可漫游的3D空间；通过“帮我递一杯水”的语音指令，能规划出机器人的运动路径；甚至结合触觉数据，判断“这个杯子是陶瓷的还是塑料的”。

关键词：信息不全也能补全。

3. 交互性：预测“世界的下一秒”

这是当前AI最欠缺的能力——给模型一个“动作指令”，它能精准预测世界的变化。比如：

● 指令“推一下桌子”，模型能算出桌子会向哪个方向移动、移动多远；

● 指令“机器人把杯子递给老人”，模型能规划出“避开障碍物→握住杯柄→缓慢递出”的完整路径。

关键词：动态交互，精准预测。

四、技术怎么突破？三大研究方向已明确

构建世界模型是AI领域的全新挑战，李飞飞创办的World Labs已经探出了清晰路径，核心聚焦三点：

1. 找对“训练教材”：设计类似LLM“预测下一个token”的简洁目标函数，但要让模型学“物理规律”而非“文字模式”。比如让模型预测“球落地后会弹几次”，在试错中掌握重力规则。

2. 凑齐“数据拼图”：需要的不只是互联网图片，还要“深度数据”（物体离镜头多远）、“触觉数据”（摸起来硬还是软）等特殊模态，关键是从2D图像中“榨出3D空间信息”。

3. 升级“模型架构”：突破当前模型的2D局限，研发能处理3D/4D（3D+时间）信息的架构。比如World Labs的RTFM模型，用“空间帧”当记忆，生成的视频再也不会“空间穿帮”。

目前，World Labs已推出早期成果Marble——全球首个能通过文字、草图生成“可交互3D环境”的模型，创作者不用学复杂软件，就能搭出虚拟场景，标志着空间智能从理论走向实践。

五、未来已来：空间智能会改变哪些行业？

李飞飞在文中描绘了空间智能的落地蓝图，从创作到科学，每个领域都将被重塑：

1. 创造力革命：人人都是“造世界大师”

电影人不用搭实景，输入“未来城市暴雨夜”的文字，就能生成可漫游的虚拟片场；建筑师画个草图，模型自动生成符合力学的3D建筑；普通用户也能靠简单指令，创作沉浸式VR故事——3D创作门槛被彻底拉低。

2. 机器人进化：从“机械执行”到“智能协作”

世界模型能给机器人“海量虚拟训练”：实验室机器人精准操作显微镜，家庭助理安全帮老人递药，甚至出现“纳米机器人”在人体内精准给药。未来的机器人，不再是“按程序干活”，而是“懂空间、会判断”的协作伙伴。

3. 科学、医疗、教育的“降维打击”

● 科学：模拟火山喷发、冰川融化的极端场景，加速气候预测、新材料研发；

● 医疗：用3D模型还原病人器官结构，辅助医生精准手术，甚至预测药物在体内的扩散路径；

● 教育：学生“走进”细胞内部看DNA复制，消防员在虚拟火场练习救援，专业技能学习更安全高效。

六、空间智能发展时间线：看懂AI的下十年

2009年

核心事件：李飞飞团队构建ImageNet数据集

关键意义：给AI装“眼睛”，奠定视觉AI基础

2010-2023年

核心事件：多模态大语言模型（MLLMs）逐步兴起

关键意义：AI开始跨文本、图像处理信息，初步具备空间感知雏形

2024年初

核心事件：World Labs成立

关键意义：聚焦世界模型研发，开启空间智能系统化探索

2025年

核心事件：李飞飞发表《从文字到世界》长文，Marble早期版本亮相

关键意义：明确空间智能为AI下一个前沿，世界模型从理论走向实践

2026-2030年

核心事件：世界模型在创造力、机器人领域规模化应用

关键意义：3D创作工具普及，服务机器人实现复杂环境交互

2030年后

核心事件：空间智能融入科学、医疗、教育核心场景

关键意义：AI与物理世界深度契合，迈向通用人工智能（AGI）拐点

结语：AI的终极目标，是“增强人类”

李飞飞在文中强调：“AI不是要取代人类，而是要成为人类能力的放大器。”空间智能正是如此——它不追求让机器“比人更会停车、更会搭积木”，而是通过弥补AI的空间短板，让技术帮人类完成“更难的事”：

科学家不用再花几年建实验模型，创作者不用被技术门槛限制想象力，老人身边有“懂分寸”的智能助手……

从图灵问“机器能思考吗”，到如今AI要“看懂世界”，人工智能的发展始终朝着“融入人类生活”的方向前进。空间智能的到来，不是AI的“独角戏”，而是人与机器“协同进化”的新起点。

以上内容不代表本平台立场，仅供读者参考