文章摘要
CursorBench 3.1代码AI基准测试报告对比36款大模型在代码类任务中的综合能力,聚焦实际开发场景,为开发者选工具提供量化参考。不同模型性能和成本差异显著,Fable系列得分高但成本高,Composer 2.5成本低且得分63.2%,性价比佳。

本次公开的CursorBench 3.1代码AI基准测试报告,从性能表现与使用成本的平衡维度,全面对比了36款不同版本的大模型在代码类任务中的综合能力。该测试聚焦于代码理解、漏洞查找、任务规划等实际开发场景,为开发者选择合适的AI工具提供了量化参考。

本次基准测试的得分与单任务平均成本散点图,对比了多款主流代码大模型不同配置版本的表现 75% 基准得分 70% 65% 60% 55% 50% 45% $20 $16 $12 $8 $4 $0 平均单任务成本 Fable 5 高配版 Composer 2.5 GPT-5.5 中配版 Gemini 3.5 Flash Opus 4.8 高配版 Sonnet 5 高配版 Kimi K2.7 Code GLM 5.2 高配版

从上述图表可以看到,不同模型的性能和成本差异显著:Fable系列的多个版本凭借最高72.9%的基准得分位居前列,但单任务成本也相对较高;而Composer 2.5以仅0.55美元的单任务成本,获得了63.2%的基准得分,展现出极佳的性价比。

排名 模型版本 基准得分 单任务平均成本 使用令牌数 完成步骤
1 Fable 5 Max 72.9% $18.02 63,842 76
2 Fable 5 Extra High 72.0% $13.74 48,754 63
3 Fable 5 High 70.6% $10.81 37,173 54
4 Fable 5 Medium 69.8% $8.27 28,507 47
5 Opus 4.7 Max 64.8% $11.02 62,989 96
6 GPT-5.5 Extra High 64.3% $4.37 17,905 46
7 Fable 5 Low 64.2% $5.70 18,882 36
8 Opus 4.8 Max 63.8% $7.59 77,370 60
9 Composer 2.5 63.2% $0.55 15,152 37
10 GPT-5.5 High 62.6% $3.59 13,329 40
11 Opus 4.8 Extra High 62.1% $6.14 55,622 54
12 Opus 4.7 Extra High 61.6% $7.11 43,942 72
13 Sonnet 5 Max 61.2% $6.87 93,485 93
14 Opus 4.7 High 59.4% $5.01 32,227 59
15 GPT-5.5 Medium 59.2% $2.22 9,065 35
16 Opus 4.8 High 58.4% $4.41 36,788 45
17 Sonnet 5 Extra High 58.4% $5.23 58,228 86
18 Sonnet 5 High 57.0% $3.74 41,735 66
19 Opus 4.8 Medium 56.6% $3.83 31,684 41
20 Sonnet 5 Medium 54.9% $2.57 27,469 53
21 GLM 5.2 Max 54.6% $3.11 51,312 83
22 Opus 4.8 Low 54.3% $2.93 22,726 36
23 Opus 4.7 Medium 52.7% $2.93 19,193 41
24 Kimi K2.7 Code 52.7% $1.92 32,902 70
25 Composer 2 52.2% $0.56 14,163 40
26 GLM 5.2 High 50.7% $2.46 30,621 76
27 Gemini 3.5 Flash 49.8% $1.94 35,105 79
28 Sonnet 4.6 Max 49.0% $3.09 40,280 55
29 GPT-5.5 Low 48.8% $1.19 4,923 24
30 Sonnet 4.6 High 48.8% $3.06 37,352 57
31 Opus 4.7 Low 48.3% $1.87 13,164 29
32 Sonnet 5 Low 47.7% $1.46 17,028 37
33 Kimi 2.6 47.6% $1.27 24,783 56
34 Sonnet 4.6 Medium 46.0% $2.64 31,360 50
35 Sonnet 4.6 Low 41.5% $1.89 21,211 50
36 Kimi 2.5 31.9% $0.87 9,446 30

测试版本更新说明

CursorBench 3.1

  • 新增了针对代码库理解、漏洞查找、任务规划和代码审查的测试题目
  • 优化了部分编辑类任务的评分标准

CursorBench 3.0

  • 初始版本聚焦于编辑、重构和bug修复类代码任务

注:单任务平均成本的计算方式为,将各模型公开的每百万令牌定价(包含输入、缓存读取、缓存写入和输出令牌)应用到每个CursorBench 3.1测试任务中使用的令牌数量,再对所有任务的结果取平均值。测试结果存在一定波动,得分间的微小差异可能不具备统计学意义。

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考