Gemini 3强的可怕，完全超出了我的预想！

善进

2025-12-17 10:42:44

生成式大模型

多模态大模型

智能体（Agent）

代码生成

文章摘要

Gemini 3终于来了！

几天前，每天都有各家文章在猜测Gemini 3，还有说通过各种路子体验 Gemini 3的。

我也就保持冷静，等他正式发布了再说。

今早一睡醒，我的公众号列表里面已经布满了关于Gemini 3的文章。

知道更离谱的是什么吗，我是没想到我身边的，几个不咋关注AI的朋友，竟然也被它吸引住了，还前来问我咋玩这个

图片描述

这次Gemini 3给我的感觉，就像是年初DeepSeek发布的时候，整个AI圈都震惊了。

过去的几个月，谷歌的日子并不好过。

隐私诉讼缠身，图像生成功能翻车，API升级让开发者骂声一片。

很多人都在说，谷歌在AI竞赛中落后了，OpenAI已经把他们甩在了身后。

这次的发布，是谷歌首次在新模型发布当天就将其整合到搜索产品中。

发布即上线，Gemini 3同时出现在谷歌搜索、Gemini APP、AI Studio、Vertex AI等多个平台当中。

这次的排行榜让我眼前一亮

在全球AI模型排行榜LMArena上，Gemini 3以1501分的历史最高分登顶。

图片描述

在被称为"人类终极考试"的Humanity's Last Exam基准测试中，它拿到了37.5%的成绩，超越了GPT-5 Pro此前保持的31.64%纪录。

图片描述

这些测试可不是简单的选择题。

GPQA Diamond考察的是博士级别的科学知识，Gemini 3的准确率达到 91.9%。

MathArena Apex测试的是接近大学奥数水平的数学能力，它创下了 23.4% 的新纪录。

而且你还能看到，上一代Gemini 2.5 Pro在这项测试中只有 0.5%。

在代码能力方面，Gemini 3的表现堪称碾压。

LiveCodeBench Pro测试的是接近国际大学生程序设计竞赛（ICPC）难度的编程题，Gemini 3得分2439，远超GPT-5.1的2243和Claude 4.5的1418。

这个分数已经逼近专业竞赛级程序员的水平。

这里让我们来看看一个实际的测试。

图片描述

给Gemini上传一张国际象棋的图片，他很快就能按照图片1:1的还原，并且还支持交互。

这个能力简直太强了！

再看一个例子，生成一个3D世界。

图片描述

页面的拖动交互非常丝滑，还有左上角的调整。

这个里面，还有一个注意点，就是那个建筑上方的字牌，在3D世界中还能做到清晰的展示，没有穿模的情况。

Agent时代真的来了

伴随Gemini 3一起发布的，还有一个叫Antigravity的开发平台。

图片描述 Url：https://antigravity.google/

它能够获得你电脑的权限，在你的编辑器、终端和浏览器之间工作，自主完成复杂的端到端任务。

但这个工具的意义远不止"会写代码"。

因为只要AI能写代码，它就能完成任何在电脑上才能完成的工作。

建仪表盘、抓取网站数据、做PPT、读取文件、分析报表......

所有这些，原本都需要人类坐在电脑前一步步操作的事情，现在都可以交给AI。

总结

这里我刚好借用我朋友的那句话：

未来还会有人类吗？

Gemini 3犯的错误已经不再是AI常见的"幻觉"，而更像人类同事在判断或理解意图时会出现的偏差。

人机协作的模式正在改变。

人类做的不再是修正AI的低级错误，而是为它提供高阶的战略指引和方向。

谷歌现在拥有6.5亿Gemini App月活用户，AI Overview功能每月服务20亿用户，超过70%的谷歌云客户正在使用其AI产品。

三年前，我们为"机器能写诗"而惊叹；

不到1000天后，我们已经在跟一个能自己搭建研究环境的AI讨论统计方法。

谷歌CEO Sundar Pichai在博客中写道：

"每一代Gemini都在上一代的基础上构建，让你能做更多事情。在这个新篇章中，我们将继续推动智能、智能体和个性化的前沿。"

以上内容不代表本平台立场，仅供读者参考