Gemini 3强的可怕,完全超出了我的预想!

2025-12-16 20:33:48
文章摘要
Gemini 3终于来了!

Gemini 3终于来了!

几天前,每天都有各家文章在猜测Gemini 3,还有说通过各种路子体验 Gemini 3的。

我也就保持冷静,等他正式发布了再说。

今早一睡醒,我的公众号列表里面已经布满了关于Gemini 3的文章。

知道更离谱的是什么吗,我是没想到我身边的,几个不咋关注AI的朋友,竟然也被它吸引住了,还前来问我咋玩这个

图片描述

图片描述

这次Gemini 3给我的感觉,就像是年初DeepSeek发布的时候,整个AI圈都震惊了。

过去的几个月,谷歌的日子并不好过。

隐私诉讼缠身,图像生成功能翻车,API升级让开发者骂声一片。

很多人都在说,谷歌在AI竞赛中落后了,OpenAI已经把他们甩在了身后。

这次的发布,是谷歌首次在新模型发布当天就将其整合到搜索产品中。

发布即上线,Gemini 3同时出现在谷歌搜索、Gemini APP、AI Studio、Vertex AI等多个平台当中。

这次的排行榜让我眼前一亮

在全球AI模型排行榜LMArena上,Gemini 3以1501分的历史最高分登顶。

图片描述

在被称为"人类终极考试"的Humanity's Last Exam基准测试中,它拿到了37.5%的成绩,超越了GPT-5 Pro此前保持的31.64%纪录。

图片描述

这些测试可不是简单的选择题。

GPQA Diamond考察的是博士级别的科学知识,Gemini 3的准确率达到 91.9%。

MathArena Apex测试的是接近大学奥数水平的数学能力,它创下了 23.4% 的新纪录。

而且你还能看到,上一代Gemini 2.5 Pro在这项测试中只有 0.5%。

在代码能力方面,Gemini 3的表现堪称碾压。

LiveCodeBench Pro测试的是接近国际大学生程序设计竞赛(ICPC)难度的编程题,Gemini 3得分2439,远超GPT-5.1的2243和Claude 4.5的1418。

这个分数已经逼近专业竞赛级程序员的水平。

这里让我们来看看一个实际的测试。

图片描述

给Gemini上传一张国际象棋的图片,他很快就能按照图片1:1的还原,并且还支持交互。

这个能力简直太强了!

再看一个例子,生成一个3D世界。

图片描述

页面的拖动交互非常丝滑,还有左上角的调整。

这个里面,还有一个注意点,就是那个建筑上方的字牌,在3D世界中还能做到清晰的展示,没有穿模的情况。

Agent时代真的来了

伴随Gemini 3一起发布的,还有一个叫Antigravity的开发平台。

图片描述 Url:https://antigravity.google/

它能够获得你电脑的权限,在你的编辑器、终端和浏览器之间工作,自主完成复杂的端到端任务。

但这个工具的意义远不止"会写代码"。

因为只要AI能写代码,它就能完成任何在电脑上才能完成的工作。

建仪表盘、抓取网站数据、做PPT、读取文件、分析报表......

所有这些,原本都需要人类坐在电脑前一步步操作的事情,现在都可以交给AI。

总结

这里我刚好借用我朋友的那句话:

未来还会有人类吗?

Gemini 3犯的错误已经不再是AI常见的"幻觉",而更像人类同事在判断或理解意图时会出现的偏差。

人机协作的模式正在改变。

人类做的不再是修正AI的低级错误,而是为它提供高阶的战略指引和方向。

谷歌现在拥有6.5亿Gemini App月活用户,AI Overview功能每月服务20亿用户,超过70%的谷歌云客户正在使用其AI产品。

三年前,我们为"机器能写诗"而惊叹;

不到1000天后,我们已经在跟一个能自己搭建研究环境的AI讨论统计方法。

谷歌CEO Sundar Pichai在博客中写道:

"每一代Gemini都在上一代的基础上构建,让你能做更多事情。在这个新篇章中,我们将继续推动智能、智能体和个性化的前沿。"

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
生成式大模型
多模态大模型
智能体(Agent)
代码生成