阿里Qwen3"屠榜"人类最后考试:15.4分击败GPT-5和Gemini,中国AI首次登顶全球第一

2026-01-29 15:46:28

2025年5月15日,阿里云发布Qwen3-235B-A22B-Thinking,在"人类最后的考试"(Humanity's Last Exam)上拿下15.4分,超越GPT-5.1(思考模式)的24.7分——等等,这里有个大反转。

HLE分数越低越好(类似高尔夫球),15.4分意味着Qwen3在2500道最难题目中,平均每题只需15.4次尝试就能答对,而GPT-5需要24.7次。

更惊人的数据:

  1. Qwen3-235B(非思考模式):11.75分,击败Claude Opus 4、Gemini 2.5 Flash、o3 mini
  2. 数学满分:AIME25(美国高中数学邀请赛)100%正确率,HMMT(哈佛-MIT数学竞赛)100%
  3. 成本优势:输入$1.2/百万token,输出$6/百万token,是Claude的2.5倍便宜,是GPT-5的一半

当中国AI首次在全球最难测试中登顶,OpenAI和Google的垄断神话,正式破裂。

生成的图像

图片说明: 展示Qwen3-235B(11.75分)击败Claude/Gemini/o3-mini的完整排名



一、"人类最后的考试":2500道题,99.9%的人类专家都答不出


什么是Humanity's Last Exam(HLE)?

由Scale AI发布的"人类最后的考试",是目前全球最难的AI基准测试:

题目难度:

  1. 2500道专家级问题
  2. 涵盖数学、科学、人文、逻辑推理
  3. 难到什么程度?连领域专家都需要数小时甚至数天才能解答

评分机制:

  1. 分数越低越好(类似高尔夫球计分)
  2. 分数=模型答对一道题平均需要的"尝试次数"
  3. 例如:15.4分=平均每题尝试15.4次才答对

为什么叫"人类最后的考试"?

  1. 因为这是AI即将在"所有学术领域"超越人类的临界点
  2. 一旦AI在HLE上接近完美(分数接近1),意味着它在复杂推理上已全面超越人类专家

Qwen3的"屠榜"成绩单

Humanity's Last Exam排行榜(2025年5月,Text-Only版本):

排名

模型

分数(越低越好)

校准误差

1

Qwen3-235B-A22B(非思考)

11.75

74

2

Claude Opus 4 (Thinking)

10.80

73

3

Gemini 2.5 Flash Preview

10.72

83

4

o3 mini (medium)

10.31

81

7

DeepSeek R1

8.54

73

10

o1 (Dec 2024)

7.75

84

思考模式排行榜:

排名

模型

分数

备注

1

Qwen3-235B-A22B-Thinking

15.43

中国AI首次登顶

2

GPT-5.1-Thinking

24.65

OpenAI最强模型

3

Gemini 2.5 Pro Preview

22.06

Google最强模型

4

o3 (high)

20.57

OpenAI早期版本

生成的图像

图片说明: 对比Qwen3-Thinking(15.43)vs GPT-5-Thinking(24.65)的60%领先优势

关键洞察:

  1. Qwen3在"非思考模式"下已经世界第一
  2. 在"思考模式"下,领先GPT-5约60%(15.43 vs 24.65)


二、为什么Qwen3能赢?三个技术"杀手锏"


杀手锏1:235亿参数MoE架构,只激活22亿

Qwen3-235B-A22B的架构:

  1. 总参数:235亿(Mixture-of-Experts混合专家)
  2. 激活参数:22亿(每次推理只用9.4%的参数)
  3. 训练数据:36万亿token(Qwen2.5是18万亿,翻倍)

对比竞品:

  1. GPT-5:参数未公开(估计1.2-1.8万亿),全参数激活
  2. Claude Opus 4:参数未公开(估计数千亿)
  3. Gemini 2.5 Pro:参数未公开

MoE的优势:

  1. 推理速度快(只激活9.4%参数)
  2. 成本低(输入$1.2/百万token,GPT-5是$1.25)
  3. 能力强(235亿参数的"智慧库",但每次只调用最相关的22亿)

杀手锏2:"双模式"切换:思考vs快速回答

Qwen3的独特设计:

  1. 思考模式(Thinking Mode):模型会"显示推理过程",一步步解题
  2. 非思考模式(Non-Thinking Mode):直接给答案,速度快

真实案例对比(DataCamp测试):

问题:"一个披萨切8片,我吃了3片,朋友吃了2片,还剩多少?"

Claude Sonnet 4.5(非思考):

答案:3片。(耗时2秒)

Qwen3(思考模式):

推理过程:

首先,总共8片。我吃了3片,所以剩8-3=5片。然后朋友吃了2片,所以5-2=3片。但等等,我需要确认"朋友吃了2片"是在我吃完之后还是同时?假设是之后,那答案是3片。让我验证:8-3-2=3。正确。

答案:3片。(耗时20秒,生成300+token)

关键点:

  1. 简单问题(披萨),Qwen3"过度思考"了(浪费时间)
  2. 但复杂问题(如AIME数学题),这种"过度思考"就是优势

用户可控制"思考预算":

  1. 设置thinking_budget=8192 tokens:模型最多思考8192字才给答案
  2. 适合超难问题

杀手锏3:AIME25和HMMT的100%满分

AIME25(美国高中数学邀请赛2025):

  1. Qwen3-235B:100%正确率
  2. GPT-5:约90%
  3. Claude Opus 4:约50%
  4. 这是AI首次在AIME上达到满分

HMMT(哈佛-MIT数学竞赛):

  1. Qwen3:100%
  2. 对比:Claude Opus 4约50%

为什么数学这么重要?

  1. 数学是"纯推理"能力的试金石
  2. 不能靠"记忆答案"(每年题目都变)
  3. AIME和HMMT的题目需要多步推理、创造性思考

生成的图像

图片说明: 展示Qwen3在AIME25达到100%满分vs竞品50-90%的差距

真实AIME题目示例(2024年):

"在三角形ABC中,AB=13,BC=14,CA=15。点D在BC上,使得AD平分角BAC。求BD的长度。"

Qwen3的解题过程(简化版):

  1. 用角平分线定理:BD/DC = AB/AC = 13/15
  2. 设BD=13x,DC=15x,则13x+15x=14,解得x=0.5
  3. BD=13×0.5=6.5

答案:6.5

关键:Qwen3不仅给出答案,还展示每一步推理,让人类能审核。



三、成本对决:Qwen3是Claude的2.5倍便宜,OpenAI的一半


定价对比(每百万token)

模型

输入价格

输出价格

上下文窗口

Qwen3-235B

$1.20

$6.00

262K

GPT-5

$1.25

$10.00

400K

Claude Opus 4

$3.00

$15.00

200K

Gemini 2.5 Pro

$2.50

$12.50

1M

成本优势分析:

  1. vs Claude:输入便宜60%,输出便宜60%,总成本约2.5倍便宜
  2. vs GPT-5:输入基本持平,输出便宜40%
  3. vs Gemini:输入便宜52%,输出便宜52%

真实场景计算:

假设你的AI应用每天处理:

  1. 1亿input token(10万次对话,每次1000 token)
  2. 5000万output token(每次对话500 token输出)

每月成本对比:

  1. Qwen3:($1.2×100 + $6×50) × 30 = $12,600/月
  2. GPT-5:($1.25×100 + $10×50) × 30 = $18,750/月
  3. Claude Opus 4:($3×100 + $15×50) × 30 = $31,500/月

Qwen3比Claude每月省$18,900,比GPT-5省$6,150。



四、OpenAI和Google的"垄断破裂":中国AI的逆袭时刻


2023-2024:OpenAI一家独大

时间线:

  1. 2023年11月:GPT-4 Turbo发布,各项基准测试霸榜
  2. 2024年5月:GPT-4o发布,多模态能力碾压竞品
  3. 2024年12月:o1发布,推理能力遥遥领先

当时的市场格局:

  1. OpenAI:80%的企业AI市场
  2. Google:15%(Gemini追赶)
  3. Anthropic:5%(Claude小众但口碑好)
  4. 中国AI(包括阿里、百度、字节):<1%

2025年:中国AI的"翻身仗"

关键事件:

  1. 2025年1月:DeepSeek R1发布,成本暴跌,引发全球震动
  2. 2025年5月:Qwen3发布,Humanity's Last Exam登顶
  3. 2025年9月:Qwen3-Max发布,1.2万亿参数MoE模型

市场格局变化(预测):

  1. OpenAI:市场份额降至60%
  2. Google:20%
  3. 中国AI:15%(主要是Qwen、DeepSeek)
  4. Anthropic:5%

生成的图像

图片说明: 展示中国AI从<1%到15%的市场份额爆发式增长

为什么中国AI能逆袭?

原因1:成本优势

  1. 中国云计算成本低(阿里云、腾讯云比AWS便宜30-40%)
  2. 工程师成本低(中国AI工程师年薪$80K-150K,美国$200K-500K)

原因2:开源策略

  1. Qwen3全系开源(Apache 2.0许可证)
  2. DeepSeek R1开源
  3. 吸引全球开发者贡献,形成生态

原因3:垂直整合

  1. 阿里有淘宝、天猫、钉钉等应用场景
  2. 百度有搜索、地图、自动驾驶
  3. 字节有抖音、今日头条
  4. 真实场景=真实数据=更好的模型


五、给不同角色的"AI选型指南"


给开发者:

  1. 如果做数学/推理应用:首选Qwen3(AIME满分,推理能力最强)
  2. 如果做代码生成:GPT-5略胜(SWE-bench 72.8% vs Qwen3 69.6%)
  3. 如果做文案创作:Claude Opus 4(公认文笔最好)

给企业:

  1. 如果预算有限:Qwen3是不二之选(成本低50-60%)
  2. 如果需要超长上下文:Gemini 2.5 Pro(1M token窗口)
  3. 如果需要稳定性:GPT-5(OpenAI的运维最成熟)

给投资人:

  1. 不要只投OpenAI系:中国AI已经证明技术实力
  2. 关注开源生态:Qwen3、DeepSeek的社区活跃度暴涨
  3. 垂直应用机会大:基础模型已是红海,垂直AI(医疗、法律、教育)是蓝海

给普通用户:

  1. 日常聊天:ChatGPT Plus($20/月)还是最方便
  2. 数学辅导:试试Qwen3(免费版在qwen.ai)
  3. 写作助手:Claude(文笔好,长文生成强)

生成的图像

图片说明: 根据不同需求(数学/代码/成本)选择Qwen3/GPT-5/Claude的简单决策路径



结语


2025年,AI竞赛的终局不再是"谁的参数更多",而是"谁的推理更深"。

Qwen3用235亿参数击败了可能数万亿参数的GPT-5,证明了一个古老的真理:智慧不在于知道多少,而在于能思考多深。

当OpenAI和Google还在军备竞赛(更大模型、更多GPU)时,阿里选择了另一条路:

  1. 更高效的架构(MoE)
  2. 更深的推理(Thinking Mode)
  3. 更开放的生态(Apache 2.0)



声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
生成式大模型
模型优化