AI模型实力比拼:CursorBench 3.1评分与成本解析
文章摘要
CursorBench 3.1代码AI基准测试报告对比36款大模型在代码类任务中的综合能力,聚焦实际开发场景,为开发者选工具提供量化参考。不同模型性能和成本差异显著,Fable系列得分高但成本高,Composer 2.5成本低且得分63.2%,性价比佳。

本次公开的CursorBench 3.1代码AI基准测试报告,从性能表现与使用成本的平衡维度,全面对比了36款不同版本的大模型在代码类任务中的综合能力。该测试聚焦于代码理解、漏洞查找、任务规划等实际开发场景,为开发者选择合适的AI工具提供了量化参考。
从上述图表可以看到,不同模型的性能和成本差异显著:Fable系列的多个版本凭借最高72.9%的基准得分位居前列,但单任务成本也相对较高;而Composer 2.5以仅0.55美元的单任务成本,获得了63.2%的基准得分,展现出极佳的性价比。
| 排名 | 模型版本 | 基准得分 | 单任务平均成本 | 使用令牌数 | 完成步骤 |
|---|---|---|---|---|---|
| 1 | Fable 5 Max | 72.9% | $18.02 | 63,842 | 76 |
| 2 | Fable 5 Extra High | 72.0% | $13.74 | 48,754 | 63 |
| 3 | Fable 5 High | 70.6% | $10.81 | 37,173 | 54 |
| 4 | Fable 5 Medium | 69.8% | $8.27 | 28,507 | 47 |
| 5 | Opus 4.7 Max | 64.8% | $11.02 | 62,989 | 96 |
| 6 | GPT-5.5 Extra High | 64.3% | $4.37 | 17,905 | 46 |
| 7 | Fable 5 Low | 64.2% | $5.70 | 18,882 | 36 |
| 8 | Opus 4.8 Max | 63.8% | $7.59 | 77,370 | 60 |
| 9 | Composer 2.5 | 63.2% | $0.55 | 15,152 | 37 |
| 10 | GPT-5.5 High | 62.6% | $3.59 | 13,329 | 40 |
| 11 | Opus 4.8 Extra High | 62.1% | $6.14 | 55,622 | 54 |
| 12 | Opus 4.7 Extra High | 61.6% | $7.11 | 43,942 | 72 |
| 13 | Sonnet 5 Max | 61.2% | $6.87 | 93,485 | 93 |
| 14 | Opus 4.7 High | 59.4% | $5.01 | 32,227 | 59 |
| 15 | GPT-5.5 Medium | 59.2% | $2.22 | 9,065 | 35 |
| 16 | Opus 4.8 High | 58.4% | $4.41 | 36,788 | 45 |
| 17 | Sonnet 5 Extra High | 58.4% | $5.23 | 58,228 | 86 |
| 18 | Sonnet 5 High | 57.0% | $3.74 | 41,735 | 66 |
| 19 | Opus 4.8 Medium | 56.6% | $3.83 | 31,684 | 41 |
| 20 | Sonnet 5 Medium | 54.9% | $2.57 | 27,469 | 53 |
| 21 | GLM 5.2 Max | 54.6% | $3.11 | 51,312 | 83 |
| 22 | Opus 4.8 Low | 54.3% | $2.93 | 22,726 | 36 |
| 23 | Opus 4.7 Medium | 52.7% | $2.93 | 19,193 | 41 |
| 24 | Kimi K2.7 Code | 52.7% | $1.92 | 32,902 | 70 |
| 25 | Composer 2 | 52.2% | $0.56 | 14,163 | 40 |
| 26 | GLM 5.2 High | 50.7% | $2.46 | 30,621 | 76 |
| 27 | Gemini 3.5 Flash | 49.8% | $1.94 | 35,105 | 79 |
| 28 | Sonnet 4.6 Max | 49.0% | $3.09 | 40,280 | 55 |
| 29 | GPT-5.5 Low | 48.8% | $1.19 | 4,923 | 24 |
| 30 | Sonnet 4.6 High | 48.8% | $3.06 | 37,352 | 57 |
| 31 | Opus 4.7 Low | 48.3% | $1.87 | 13,164 | 29 |
| 32 | Sonnet 5 Low | 47.7% | $1.46 | 17,028 | 37 |
| 33 | Kimi 2.6 | 47.6% | $1.27 | 24,783 | 56 |
| 34 | Sonnet 4.6 Medium | 46.0% | $2.64 | 31,360 | 50 |
| 35 | Sonnet 4.6 Low | 41.5% | $1.89 | 21,211 | 50 |
| 36 | Kimi 2.5 | 31.9% | $0.87 | 9,446 | 30 |
测试版本更新说明
CursorBench 3.1
- 新增了针对代码库理解、漏洞查找、任务规划和代码审查的测试题目
- 优化了部分编辑类任务的评分标准
CursorBench 3.0
- 初始版本聚焦于编辑、重构和bug修复类代码任务
注:单任务平均成本的计算方式为,将各模型公开的每百万令牌定价(包含输入、缓存读取、缓存写入和输出令牌)应用到每个CursorBench 3.1测试任务中使用的令牌数量,再对所有任务的结果取平均值。测试结果存在一定波动,得分间的微小差异可能不具备统计学意义。
塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/
AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。
以上内容不代表本平台立场,仅供读者参考




