阿里Qwen3"屠榜"人类最后考试:15.4分击败GPT-5和Gemini,中国AI首次登顶全球第一

2026-01-27 13:39:41

生成式大模型

模型优化

2025年5月15日,阿里云发布Qwen3-235B-A22B-Thinking,在"人类最后的考试"(Humanity's Last Exam)上拿下15.4分,超越GPT-5.1(思考模式)的24.7分——等等,这里有个大反转。

HLE分数越低越好(类似高尔夫球),15.4分意味着Qwen3在2500道最难题目中,平均每题只需15.4次尝试就能答对,而GPT-5需要24.7次。

更惊人的数据:

Qwen3-235B(非思考模式):11.75分,击败Claude Opus 4、Gemini 2.5 Flash、o3 mini
数学满分:AIME25(美国高中数学邀请赛)100%正确率,HMMT(哈佛-MIT数学竞赛)100%
成本优势:输入$1.2/百万token,输出$6/百万token,是Claude的2.5倍便宜,是GPT-5的一半

当中国AI首次在全球最难测试中登顶,OpenAI和Google的垄断神话,正式破裂。

生成的图像

_{图片说明: 展示Qwen3-235B(11.75分)击败Claude/Gemini/o3-mini的完整排名}

一、"人类最后的考试":2500道题,99.9%的人类专家都答不出

什么是Humanity's Last Exam(HLE)?

由Scale AI发布的"人类最后的考试",是目前全球最难的AI基准测试:

题目难度:

2500道专家级问题
涵盖数学、科学、人文、逻辑推理
难到什么程度?连领域专家都需要数小时甚至数天才能解答

评分机制:

分数越低越好(类似高尔夫球计分)
分数=模型答对一道题平均需要的"尝试次数"
例如:15.4分=平均每题尝试15.4次才答对

为什么叫"人类最后的考试"?

因为这是AI即将在"所有学术领域"超越人类的临界点
一旦AI在HLE上接近完美(分数接近1),意味着它在复杂推理上已全面超越人类专家

Qwen3的"屠榜"成绩单

Humanity's Last Exam排行榜(2025年5月,Text-Only版本):

排名	模型	分数(越低越好)	校准误差
1	Qwen3-235B-A22B(非思考)	11.75	74
2	Claude Opus 4 (Thinking)	10.80	73
3	Gemini 2.5 Flash Preview	10.72	83
4	o3 mini (medium)	10.31	81
7	DeepSeek R1	8.54	73
10	o1 (Dec 2024)	7.75	84

思考模式排行榜:

排名	模型	分数	备注
1	Qwen3-235B-A22B-Thinking	15.43	中国AI首次登顶
2	GPT-5.1-Thinking	24.65	OpenAI最强模型
3	Gemini 2.5 Pro Preview	22.06	Google最强模型
4	o3 (high)	20.57	OpenAI早期版本

生成的图像

_{图片说明: 对比Qwen3-Thinking(15.43)vs GPT-5-Thinking(24.65)的60%领先优势}

关键洞察:

Qwen3在"非思考模式"下已经世界第一
在"思考模式"下,领先GPT-5约60%(15.43 vs 24.65)

二、为什么Qwen3能赢?三个技术"杀手锏"

杀手锏1:235亿参数MoE架构,只激活22亿

Qwen3-235B-A22B的架构:

总参数:235亿(Mixture-of-Experts混合专家)
激活参数:22亿(每次推理只用9.4%的参数)
训练数据:36万亿token(Qwen2.5是18万亿,翻倍)

对比竞品:

GPT-5:参数未公开(估计1.2-1.8万亿),全参数激活
Claude Opus 4:参数未公开(估计数千亿)
Gemini 2.5 Pro:参数未公开

MoE的优势:

推理速度快(只激活9.4%参数)
成本低(输入$1.2/百万token,GPT-5是$1.25)
能力强(235亿参数的"智慧库",但每次只调用最相关的22亿)

杀手锏2:"双模式"切换:思考vs快速回答

Qwen3的独特设计:

思考模式(Thinking Mode):模型会"显示推理过程",一步步解题
非思考模式(Non-Thinking Mode):直接给答案,速度快

真实案例对比(DataCamp测试):

问题:"一个披萨切8片,我吃了3片,朋友吃了2片,还剩多少?"

Claude Sonnet 4.5(非思考):

答案:3片。(耗时2秒)

Qwen3(思考模式):

推理过程:

首先,总共8片。我吃了3片,所以剩8-3=5片。然后朋友吃了2片,所以5-2=3片。但等等,我需要确认"朋友吃了2片"是在我吃完之后还是同时?假设是之后,那答案是3片。让我验证:8-3-2=3。正确。

答案:3片。(耗时20秒,生成300+token)

关键点:

简单问题(披萨),Qwen3"过度思考"了(浪费时间)
但复杂问题(如AIME数学题),这种"过度思考"就是优势

用户可控制"思考预算":

设置thinking_budget=8192 tokens:模型最多思考8192字才给答案
适合超难问题

杀手锏3:AIME25和HMMT的100%满分

AIME25(美国高中数学邀请赛2025):

Qwen3-235B:100%正确率
GPT-5:约90%
Claude Opus 4:约50%
这是AI首次在AIME上达到满分

HMMT(哈佛-MIT数学竞赛):

Qwen3:100%
对比:Claude Opus 4约50%

为什么数学这么重要?

数学是"纯推理"能力的试金石
不能靠"记忆答案"(每年题目都变)
AIME和HMMT的题目需要多步推理、创造性思考

生成的图像

_{图片说明: 展示Qwen3在AIME25达到100%满分vs竞品50-90%的差距}

真实AIME题目示例(2024年):

"在三角形ABC中,AB=13,BC=14,CA=15。点D在BC上,使得AD平分角BAC。求BD的长度。"

Qwen3的解题过程(简化版):

用角平分线定理:BD/DC = AB/AC = 13/15
设BD=13x,DC=15x,则13x+15x=14,解得x=0.5
BD=13×0.5=6.5

答案:6.5

关键:Qwen3不仅给出答案,还展示每一步推理,让人类能审核。

三、成本对决:Qwen3是Claude的2.5倍便宜,OpenAI的一半

定价对比(每百万token)

模型	输入价格	输出价格	上下文窗口
Qwen3-235B	$1.20	$6.00	262K
GPT-5	$1.25	$10.00	400K
Claude Opus 4	$3.00	$15.00	200K
Gemini 2.5 Pro	$2.50	$12.50	1M

成本优势分析:

vs Claude:输入便宜60%,输出便宜60%,总成本约2.5倍便宜
vs GPT-5:输入基本持平,输出便宜40%
vs Gemini:输入便宜52%,输出便宜52%

真实场景计算:

假设你的AI应用每天处理:

1亿input token(10万次对话,每次1000 token)
5000万output token(每次对话500 token输出)

每月成本对比:

Qwen3:($1.2×100 + $6×50) × 30 = $12,600/月
GPT-5:($1.25×100 + $10×50) × 30 = $18,750/月
Claude Opus 4:($3×100 + $15×50) × 30 = $31,500/月

Qwen3比Claude每月省$18,900,比GPT-5省$6,150。

四、OpenAI和Google的"垄断破裂":中国AI的逆袭时刻

2023-2024:OpenAI一家独大

时间线:

2023年11月:GPT-4 Turbo发布,各项基准测试霸榜
2024年5月:GPT-4o发布,多模态能力碾压竞品
2024年12月:o1发布,推理能力遥遥领先

当时的市场格局:

OpenAI:80%的企业AI市场
Google:15%(Gemini追赶)
Anthropic:5%(Claude小众但口碑好)
中国AI(包括阿里、百度、字节):<1%

2025年:中国AI的"翻身仗"

关键事件:

2025年1月:DeepSeek R1发布,成本暴跌,引发全球震动
2025年5月:Qwen3发布,Humanity's Last Exam登顶
2025年9月:Qwen3-Max发布,1.2万亿参数MoE模型

市场格局变化(预测):

OpenAI:市场份额降至60%
Google:20%
中国AI:15%(主要是Qwen、DeepSeek)
Anthropic:5%

生成的图像

_{图片说明: 展示中国AI从<1%到15%的市场份额爆发式增长}

为什么中国AI能逆袭?

原因1:成本优势

中国云计算成本低(阿里云、腾讯云比AWS便宜30-40%)
工程师成本低(中国AI工程师年薪$80K-150K,美国$200K-500K)

原因2:开源策略

Qwen3全系开源(Apache 2.0许可证)
DeepSeek R1开源
吸引全球开发者贡献,形成生态

原因3:垂直整合

阿里有淘宝、天猫、钉钉等应用场景
百度有搜索、地图、自动驾驶
字节有抖音、今日头条
真实场景=真实数据=更好的模型

五、给不同角色的"AI选型指南"

给开发者:

如果做数学/推理应用:首选Qwen3(AIME满分,推理能力最强)
如果做代码生成:GPT-5略胜(SWE-bench 72.8% vs Qwen3 69.6%)
如果做文案创作:Claude Opus 4(公认文笔最好)

给企业:

如果预算有限:Qwen3是不二之选(成本低50-60%)
如果需要超长上下文:Gemini 2.5 Pro(1M token窗口)
如果需要稳定性:GPT-5(OpenAI的运维最成熟)

给投资人:

不要只投OpenAI系:中国AI已经证明技术实力
关注开源生态:Qwen3、DeepSeek的社区活跃度暴涨
垂直应用机会大:基础模型已是红海,垂直AI(医疗、法律、教育)是蓝海

给普通用户:

日常聊天:ChatGPT Plus($20/月)还是最方便
数学辅导:试试Qwen3(免费版在qwen.ai)
写作助手:Claude(文笔好,长文生成强)

生成的图像

_{图片说明: 根据不同需求(数学/代码/成本)选择Qwen3/GPT-5/Claude的简单决策路径}

结语

2025年,AI竞赛的终局不再是"谁的参数更多",而是"谁的推理更深"。

Qwen3用235亿参数击败了可能数万亿参数的GPT-5,证明了一个古老的真理:智慧不在于知道多少,而在于能思考多深。

当OpenAI和Google还在军备竞赛(更大模型、更多GPU)时,阿里选择了另一条路:

更高效的架构(MoE)
更深的推理(Thinking Mode)
更开放的生态(Apache 2.0)

以上内容不代表本平台立场，仅供读者参考