正文目录

MIT新测评：AI并不理解世界，它只是在模仿

阿司匹林

2025-10-30 17:39:03

文章摘要

MIT：顶尖 AI模型在因果推理上被人类全面碾压。问题不在算力或规模，而在结构缺陷：AI仅会匹配模式和重复尝试，缺乏人类的“实验本能”和“假设检验”能力。

过去五年，我们相信 AI规模越大，智能越强。

但MIT与Basis Research刚刚公布一项让整个AI界沉默的研究。

在名为 WorldTest的最新测评中，人类完胜一众顶级AI模型。

结果无比刺眼：当前AI并不会理解，它只会匹配——就像一个会背题但不会思考的学生。

WorldTest：新评估范式

过去的AI评测几乎都围绕记忆力、预测正确与否。

这些测试只衡量结果对不对，而非思维方式对不对。

测试针对的始终是单一、预设的目标，而非对现实世界的内部认知。

MIT的团队认为，真正的智能在于能否构建内部世界模型（World Model）。

即：能否在没有奖励的环境中，主动探索、发现规律、并在规则突变时迅速修正认知。

于是，他们构建了一个前所未有的基准系统——AutumnBench。

它包含43个交互式虚拟世界与129项任务，涵盖从物理谜题到因果推理游戏。

AI先被置于一个环境中进行无目标、无奖励的探索，学习环境内在规律。

接着被投放到另一个相关环境，这一环境规则已发生微小变化，并被要求执行全新且未知的任务。

实验结果残酷：517名人类，全面碾压所有AI

研究者让517名人类志愿者，与三款顶级AI（Claude、Gemini 2.5 Pro、o3）一同参加。

结果类的表现碾压了所有参测的顶级模型

● 模型规模扩大10倍，性能零增长

● 某些AI甚至在任务复杂化后表现退化

数据表明，GPT-4级别的模型在环境规则改变的任务中正确率仅为人类的27%，而在因果推断类问题上，AI几乎全线崩溃。

人类会重新开始，会暂停再想想，不停的测试假设；

AI只是重复性的尝试，试图通过数量完成任务。

换句话说，人类在验证假设，AI在刷屏。

认知差异的根源：AI缺少实验本能

通过行为分析，团队引入了一个新的指标，归一化困惑度（Normalized Perplexity），用以衡量探索阶段的注意力集中度。

结果发现：

人类在短时间内迅速从随机尝试转向有序行为，表现出明显的假设检验节奏；

AI模型则在长时间内保持混乱状态，行为缺乏结构，说明它们并未构建内在因果模型。

在“厨房找不同”这类因果游戏中，人类会主动重新开始以隔离变量（例如重新打开抽屉以验证差异）；

而AI几乎从不使用重启操作，它不懂得测试自己的假设。

MIT团队指出，这正是科学思维与模式匹配的分水岭。

研究还揭示一个令人不安的趋势：

算力提升并不能带来认知突破。

在43个环境中，增加10倍算力仅在25个场景下带来轻微提升，

其余环境中性能要么停滞，要么下降。

这意味着当前AI的瓶颈，不在硬件，不在参数，而在结构上的缺陷。

AI可以学习知识，明白输出什么，却无法形成关于世界如何运作的内隐模型。

一句话总结：AI在记忆世界，而非理解世界。

首次为智能理解力划出科学量尺

WorldTest首次评测理解深度，无论是语言模型、强化学习体，还是机器人策略，都可直接与人类对比。

标志着AI研究正式进入世界理解力测评时代。

下一代 AI认知的挑战

WorldTest的成绩表明，算力与模型规模无法弥补 AI认知结构缺陷。

未来 AI 研发上的竞争，或将从传统的参数竞争转向“理解力”的竞争。

以上内容不代表本平台立场，仅供读者参考