Sonnet 5性能超越前代，价格仅为Opus4.8一半

2026-07-02 11:19:25

文章摘要

AI厂商推出Claude Sonnet 5模型，定位为Sonnet系列中自主性最强产品。它性能超越前代，缩小与Opus 4.8差距，推广期定价低。在低、中等算力场景性价比高，适用于多类工程任务，但在超高算力投入等方面有不足，发布后社区反馈呈混合态势。

近期，AI厂商推出了全新的Claude Sonnet 5模型，官方将其定位为当前Sonnet系列中自主性最强的产品，支持任务规划、浏览器与终端操作，能够在长周期任务中实现稳定自主运行。

目前，免费与专业计划用户已默认可以使用该模型，团队、企业级以及Max套餐用户也可手动选择，同时Sonnet 5已经同步接入Claude Code以及Claude开发平台。

核心亮点速览

Sonnet 5是Anthropic旗下自主性最强的中端模型，大幅缩小了与旗舰模型Opus 4.8的性能差距
在所有公开基准测试中均超越了上一代Sonnet 4.6模型，包括63.2%的SWE-bench Pro得分、81.2%的OSWorld-Verified得分以及57.4%的Humanity’s Last Exam得分
定价更具优势：推广期内每百万输入/输出令牌分别为2美元和10美元，截止到2026年8月31日，之后将调整为3美元/15美元每百万令牌，而Opus 4.8的定价为5美元/25美元每百万令牌
在低、中等算力投入场景下拥有极佳的性价比，但在超高算力投入模式下，成本可能会超过同性能的Opus 4.8
安全性优于Sonnet 4.6，且刻意限制了网络安全相关的能力，对于对精度要求极高的任务，仍建议使用Opus 4.8

Sonnet系列处于Anthropic产品矩阵的中端位置，上方是旗舰级的Opus 4.8，下方则是定位高并发、低延迟的Haiku 4.5。Sonnet 5是2026年2月推出的Sonnet 4.6的升级版本，本次更新的核心聚焦于自主性可靠性，而非单一的基准测试分数。

具体来说，Sonnet 5能够支持更长的任务链且不会丢失上下文，在工具调用失败时可以实现更好的自我修正，同时在Claude Code或Cowork的长会话中表现更加稳定。该模型提供了四种算力投入档位：低、中、高以及超高（xhigh），算力投入越高，模型会花费更多的令牌用于推理，从而提升质量但也会增加成本。

需要注意的是，Sonnet 5采用了与Opus 4.7相同的更新版分词器，相同的文本内容可能会产生1.0到1.35倍的令牌数量，这一点需要在使用时特别关注。

基准测试表现

Anthropic官方发布了Sonnet 5、Sonnet 4.6以及Opus 4.8的对比基准测试数据，Sonnet 5在所有测试类别中均超越了上一代Sonnet 4.6，大幅缩小了与Opus 4.8的差距。

在智能编码测试（SWE-bench Pro）中，Sonnet 5得分为63.2%，Sonnet 4.6为58.1%，Opus 4.8以69.2%位居第一

在计算机操作测试（OSWorld-Verified）中，Sonnet 5得分为81.2%，Sonnet 4.6为78.5%；在Terminal-Bench 2.1测试中，Sonnet 5得分80.4%，Sonnet 4.6为67.0%

在带工具的Humanity’s Last Exam测试中，Sonnet 5得分为57.4%，几乎追平Opus 4.8的57.9%

在GDPval-AA v2知识工作基准测试中，Sonnet 5以1618分小幅领先Opus 4.8的1615分

算力档位与性价比权衡

对于开发者来说，Sonnet 5的性价比是最核心的亮点。该模型在所有算力档位上均严格优于Sonnet 4.6，在低、中等算力投入场景下的价值最为明显。

在这些档位下，Sonnet 5能够提供此前Sonnet系列无法企及的性能表现，而Opus 4.8仍然是高精度任务的首选。基于此，我们可以得出实用的模型选择策略：将大部分智能编码、工具使用以及知识工作任务交给Sonnet 5，将Opus 4.8留给对精度要求极高的任务，而Haiku 4.5则适用于高并发、低延迟的调用场景。

典型适用场景

早期合作用户分享了多个实际落地的工作流，覆盖了常见的工程任务：

多步骤软件工程：一名测试人员让Sonnet 5排查一个bug，模型自动编写了复现测试用例，实现了修复方案，随后验证了未修复版本中bug仍然存在，整个流程一次性完成
遗留系统调试：另一位用户将Sonnet 5用于复杂的拉取请求分析，模型能够追溯故障的根本原因，输出稳定的修复方案而非表面的临时补丁
业务自动化：Zapier将一个两分任务交给Sonnet 5，模型先更新了Salesforce的账户层级，随后向企业联系人发送了启动邮件，完整完成了端到端的任务
计算机操作代理：Pace使用该模型处理保险工作流，包括提交受理和损失核算，代理可以直接在团队已使用的运营系统上完成操作
数据探索：ClickHouse代理可以实时查询数据并生成洞察，更快的推理速度让分析师能够更快获得结论

核心参数对比表

指标/规格	Sonnet 4.6	Sonnet 5	Opus 4.8
智能编码（SWE-bench Pro）	58.1%	63.2%	69.2%
Terminal-Bench 2.1	67.0%	80.4%	未公开
计算机操作（OSWorld-Verified）	78.5%	81.2%	未公开
带工具的Humanity’s Last Exam	46.8%	57.4%	57.9%
知识工作（GDPval-AA v2）	未公开	1618	1615
输入定价（美元/百万令牌）	3	推广期2，之后3	5
输出定价（美元/百万令牌）	15	推广期10，之后15	25

Sonnet 5的推广定价将持续到2026年8月31日，之后将切换为标准定价3美元/15美元每百万令牌。官方的标准提示缓存功能和50%的批量API折扣同样适用于Sonnet 5。按每令牌计算，Sonnet 5的价格低于GPT-5.5和Gemini 3.1 Pro，但高于Gemini 3.5 Flash。Anthropic在发布公告中提到，Sonnet 5的上下文窗口为100万令牌，但未公开其他模型的上下文窗口参数。

API调用示例

Sonnet 5的API调用方式与其他Anthropic模型完全一致，仅需要将模型字符串修改为claude-sonnet-5即可：

import anthropic
client = anthropic.Anthropic()  # 自动读取环境变量中的ANTHROPIC_API_KEY
message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[
        {"role": "user",content": "Find the race condition in worker.py and ship a tested fix."}
    ],
)
print(message.content[0].text)

优势与不足

优势

在所有Anthropic公开测试的基准类别中均优于Sonnet 4.6
多项评测中接近Opus 4.8的性能，同时拥有更低的每令牌定价
在GDPval-AA v2知识工作基准测试中小幅领先Opus 4.8
幻觉、谄媚以及不良行为的发生率低于Sonnet 4.6
无需额外适配，仅需替换模型字符串即可完成API调用

不足

Opus 4.8仍然在最高精度要求的任务中表现更优
在超高算力投入档位下，成本可能会超过同性能的Opus 4.8
新的分词器可能会使令牌数量增加最多1.35倍
刻意限制了网络安全相关能力，如需合规的网络安全工作，仍需使用Opus 4.8
标准定价3美元/15美元每百万令牌将在2026年8月31日后生效

行业社区反馈

在2026年6月30日发布当天，开发者社区对Sonnet 5的反馈呈现混合态势：整体有38%的正面评价、38%的中性评价以及25%的负面评价。

正面评价主要聚焦于其性价比，尤其是推广期的定价，以及在编码和工具使用场景中的性能提升；中性评价则多关注其在标准定价后的竞争力，以及对Haiku系列更新的期待；负面评价则认为在复杂任务中仍需使用Opus 4.8，同时部分开发者认为其性价比不如其他同价位模型如GLM 5.2。

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台，致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴，你不仅可以学习众多AIGC类实战课程，获得与时俱进的AIGC技能和视野，还有机会获得长期商业合作和接单机会！点击进入：https://www.tahou.com/

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考