全球只有 7 人比它会编程!谷歌 Gemini 3 Deep Think 刷新 AI 天花板

2026-02-13 11:32:01
文章摘要
数学、物理、化学奥赛全金牌!Gemini 3 Deep Think 跨学科称霸

从此以后,AI 不再是工具,要尊称为硅基博学家了。

北京时间周五凌晨,谷歌发布了 Gemini 3 Deep Think 的重大升级。作为专门用于复杂任务的推理模式,Deep Think 代表 AI 前沿的最强智能水平,旨在解决科学、工程领域的诸多挑战。

去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇(Shunyu Yao)也是这次 Deep Think 新模型的参与者。

更新后的 Deep Think 在最严格的学术基准测试中取得了新的高度——在 Codeforces 上拿到 3455 分,相当于世界排名第八的顶尖竞技程序员水平。地球上只有 7 个人能在编程比赛中击败它。


刷榜全记录——四项世界级突破


这次 Deep Think 的升级,在多个全球顶级基准测试中刷新了纪录:

1. 人类的最后考试:48.4% 新纪录

在人类的最后考试(Humanity's Last Exam)这项旨在测试现代前沿模型极限的基准测试中,Deep Think 取得了 48.4% 的成绩(不使用任何工具),创下新的 SOTA。

2. ARC-AGI-2:84.6% 前所未有

在 ARC-AGI-2 测试中取得了 84.6% 的成绩,经 ARC Prize 基金会验证。而在 ARC-AGI-1 上的成绩是 96.0%,每任务花费 7.17 美元。

对比一下:大约 14 个月前,OpenAI 模型 o3-preview 的高计算版本在 ARC-AGI-1 测试中达到了约 88% 的分数,每个任务的成本约为 2000 至 3000 美元。

Gemini 3 Deep Think 的成本仅为 7.17 美元,成本降低了约 280 至 420 倍。

3. Codeforces:3455 分,世界第八

在 Codeforces——一个包含各种竞技编程挑战的基准测试平台上,Deep Think 取得了 3455 Elo 分数,相当于世界排名第八的顶尖竞技程序员水平。

之前的最佳成绩是来自一年多以前 OpenAI o3 的 2727 分,排名第 175。

地球上只有 7 个人能在编程比赛中击败 Gemini 3 Deep Think。

4. 国际奥赛:数学、物理、化学全金牌

在 2025 年国际数学奥林匹克竞赛、国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试部分,Deep Think 都取得了金牌级别的成绩。在高等理论物理方面,它在 CMT-Benchmark 测试中取得了 50.5% 的分数。


这些成绩意味着什么?


看完这些数字,可能会觉得很抽象。我们换个说法:

编程水平:世界前 0.001%

Codeforces 3455 分是什么概念?在全球数百万程序员中,只有极少数人能达到这个水平。Gemini 3 Deep Think 已经超越了 99.999% 的人类程序员。

成本优势:降低 280 倍

在 ARC-AGI-1 测试中,OpenAI o3-preview 每任务成本 2000-3000 美元,Gemini 3 Deep Think 只需要 7.17 美元。这意味着什么?

意味着过去只有科研机构和大公司才负担得起的 AI 能力,现在普通开发者和小企业也能用得起了。

科学能力:跨越多学科金牌

数学、物理、化学奥赛全金牌,这不是单一领域的突破,而是通用科学推理能力的证明。Deep Think 已经具备了在多个科学领域做出贡献的基础能力。


真实案例——Deep Think 正在改变科研


谷歌展示了一些早期测试用户使用 Deep Think 的成果,这些案例比冰冷的分数更能说明问题。

案例一:发现人类审稿漏掉的逻辑错误

罗格斯大学数学家 Lisa Carbone 致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。

由于该领域缺乏大量的训练数据,她利用 Deep Think 技术审阅了一篇高度专业的数学论文。Deep Think 成功识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。

案例二:突破半导体材料制备难题

在杜克大学,Haozhe Harry Wang 带领的实验室利用 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。

Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。

案例三:把草图变成 3D 打印文件

借助更新后的 Deep Think,你可以将草图转化为可 3D 打印的实体模型。Deep Think 会分析图纸,对复杂形状进行建模,并生成用于 3D 打印的实体文件。


清华传奇姚顺宇参与研发


值得一提的是,去年 9 月加入 Google DeepMind 的清华物理系传奇姚顺宇(Shunyu Yao)也是这次 Deep Think 新模型的参与者。

姚顺宇在 AI 推理领域有深厚积累,他的加入为 Deep Think 的推理能力提升做出了重要贡献。


怎么用?谁能用?


全新 Deep Think 现已在 Gemini 应用中上线,目前 Google AI Ultra 订阅用户可以使用。

此外,谷歌首次通过 Gemini API 向部分研究人员、工程师和企业开放 Deep Think 的使用权限。感兴趣的团队可以申请早期访问计划。


当 AI 在 Codeforces 上排名世界第八,当它能发现人类专家审稿漏掉的逻辑错误,当它在数学、物理、化学奥赛上全拿金牌——这意味着我们现在需要重新思考 AI 能力评测的标准了。

过去我们用来测试 AI 的很多基准,现在已经接近饱和。Gemini 3 Deep Think 在 ARC-AGI-1 上的 96% 成绩,OpenAI o3 的 88% 成绩,这些数字都在告诉我们:我们需要更难的测试题了。

但更重要的是,这些突破正在从实验室走向真实世界。从审阅数学论文到优化半导体制备,从草图建模到 3D 打印。AI 正在成为科研和工程领域真正的生产力工具。

或许随着更多人的使用,我们不久之后能够基于 Gemini 3 Deep Think 实现更多科研突破。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
生成式大模型