Sonnet 5性能超越前代,价格仅为Opus4.8一半

近期,AI厂商推出了全新的Claude Sonnet 5模型,官方将其定位为当前Sonnet系列中自主性最强的产品,支持任务规划、浏览器与终端操作,能够在长周期任务中实现稳定自主运行。
目前,免费与专业计划用户已默认可以使用该模型,团队、企业级以及Max套餐用户也可手动选择,同时Sonnet 5已经同步接入Claude Code以及Claude开发平台。
核心亮点速览
- Sonnet 5是Anthropic旗下自主性最强的中端模型,大幅缩小了与旗舰模型Opus 4.8的性能差距
- 在所有公开基准测试中均超越了上一代Sonnet 4.6模型,包括63.2%的SWE-bench Pro得分、81.2%的OSWorld-Verified得分以及57.4%的Humanity’s Last Exam得分
- 定价更具优势:推广期内每百万输入/输出令牌分别为2美元和10美元,截止到2026年8月31日,之后将调整为3美元/15美元每百万令牌,而Opus 4.8的定价为5美元/25美元每百万令牌
- 在低、中等算力投入场景下拥有极佳的性价比,但在超高算力投入模式下,成本可能会超过同性能的Opus 4.8
- 安全性优于Sonnet 4.6,且刻意限制了网络安全相关的能力,对于对精度要求极高的任务,仍建议使用Opus 4.8
Sonnet系列处于Anthropic产品矩阵的中端位置,上方是旗舰级的Opus 4.8,下方则是定位高并发、低延迟的Haiku 4.5。Sonnet 5是2026年2月推出的Sonnet 4.6的升级版本,本次更新的核心聚焦于自主性可靠性,而非单一的基准测试分数。
具体来说,Sonnet 5能够支持更长的任务链且不会丢失上下文,在工具调用失败时可以实现更好的自我修正,同时在Claude Code或Cowork的长会话中表现更加稳定。该模型提供了四种算力投入档位:低、中、高以及超高(xhigh),算力投入越高,模型会花费更多的令牌用于推理,从而提升质量但也会增加成本。
需要注意的是,Sonnet 5采用了与Opus 4.7相同的更新版分词器,相同的文本内容可能会产生1.0到1.35倍的令牌数量,这一点需要在使用时特别关注。
基准测试表现
Anthropic官方发布了Sonnet 5、Sonnet 4.6以及Opus 4.8的对比基准测试数据,Sonnet 5在所有测试类别中均超越了上一代Sonnet 4.6,大幅缩小了与Opus 4.8的差距。
在智能编码测试(SWE-bench Pro)中,Sonnet 5得分为63.2%,Sonnet 4.6为58.1%,Opus 4.8以69.2%位居第一
在计算机操作测试(OSWorld-Verified)中,Sonnet 5得分为81.2%,Sonnet 4.6为78.5%;在Terminal-Bench 2.1测试中,Sonnet 5得分80.4%,Sonnet 4.6为67.0%
在带工具的Humanity’s Last Exam测试中,Sonnet 5得分为57.4%,几乎追平Opus 4.8的57.9%
在GDPval-AA v2知识工作基准测试中,Sonnet 5以1618分小幅领先Opus 4.8的1615分
算力档位与性价比权衡
对于开发者来说,Sonnet 5的性价比是最核心的亮点。该模型在所有算力档位上均严格优于Sonnet 4.6,在低、中等算力投入场景下的价值最为明显。
在这些档位下,Sonnet 5能够提供此前Sonnet系列无法企及的性能表现,而Opus 4.8仍然是高精度任务的首选。基于此,我们可以得出实用的模型选择策略:将大部分智能编码、工具使用以及知识工作任务交给Sonnet 5,将Opus 4.8留给对精度要求极高的任务,而Haiku 4.5则适用于高并发、低延迟的调用场景。
典型适用场景
早期合作用户分享了多个实际落地的工作流,覆盖了常见的工程任务:
- 多步骤软件工程:一名测试人员让Sonnet 5排查一个bug,模型自动编写了复现测试用例,实现了修复方案,随后验证了未修复版本中bug仍然存在,整个流程一次性完成
- 遗留系统调试:另一位用户将Sonnet 5用于复杂的拉取请求分析,模型能够追溯故障的根本原因,输出稳定的修复方案而非表面的临时补丁
- 业务自动化:Zapier将一个两分任务交给Sonnet 5,模型先更新了Salesforce的账户层级,随后向企业联系人发送了启动邮件,完整完成了端到端的任务
- 计算机操作代理:Pace使用该模型处理保险工作流,包括提交受理和损失核算,代理可以直接在团队已使用的运营系统上完成操作
- 数据探索:ClickHouse代理可以实时查询数据并生成洞察,更快的推理速度让分析师能够更快获得结论
核心参数对比表
| 指标/规格 | Sonnet 4.6 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| 智能编码(SWE-bench Pro) | 58.1% | 63.2% | 69.2% |
| Terminal-Bench 2.1 | 67.0% | 80.4% | 未公开 |
| 计算机操作(OSWorld-Verified) | 78.5% | 81.2% | 未公开 |
| 带工具的Humanity’s Last Exam | 46.8% | 57.4% | 57.9% |
| 知识工作(GDPval-AA v2) | 未公开 | 1618 | 1615 |
| 输入定价(美元/百万令牌) | 3 | 推广期2,之后3 | 5 |
| 输出定价(美元/百万令牌) | 15 | 推广期10,之后15 | 25 |
Sonnet 5的推广定价将持续到2026年8月31日,之后将切换为标准定价3美元/15美元每百万令牌。官方的标准提示缓存功能和50%的批量API折扣同样适用于Sonnet 5。按每令牌计算,Sonnet 5的价格低于GPT-5.5和Gemini 3.1 Pro,但高于Gemini 3.5 Flash。Anthropic在发布公告中提到,Sonnet 5的上下文窗口为100万令牌,但未公开其他模型的上下文窗口参数。
API调用示例
Sonnet 5的API调用方式与其他Anthropic模型完全一致,仅需要将模型字符串修改为claude-sonnet-5即可:
import anthropic
client = anthropic.Anthropic() # 自动读取环境变量中的ANTHROPIC_API_KEY
message = client.messages.create(
model="claude-sonnet-5",
max_tokens=1024,
messages=[
{"role": "user",content": "Find the race condition in worker.py and ship a tested fix."}
],
)
print(message.content[0].text)
优势与不足
优势
- 在所有Anthropic公开测试的基准类别中均优于Sonnet 4.6
- 多项评测中接近Opus 4.8的性能,同时拥有更低的每令牌定价
- 在GDPval-AA v2知识工作基准测试中小幅领先Opus 4.8
- 幻觉、谄媚以及不良行为的发生率低于Sonnet 4.6
- 无需额外适配,仅需替换模型字符串即可完成API调用
不足
- Opus 4.8仍然在最高精度要求的任务中表现更优
- 在超高算力投入档位下,成本可能会超过同性能的Opus 4.8
- 新的分词器可能会使令牌数量增加最多1.35倍
- 刻意限制了网络安全相关能力,如需合规的网络安全工作,仍需使用Opus 4.8
- 标准定价3美元/15美元每百万令牌将在2026年8月31日后生效
行业社区反馈
在2026年6月30日发布当天,开发者社区对Sonnet 5的反馈呈现混合态势:整体有38%的正面评价、38%的中性评价以及25%的负面评价。
正面评价主要聚焦于其性价比,尤其是推广期的定价,以及在编码和工具使用场景中的性能提升;中性评价则多关注其在标准定价后的竞争力,以及对Haiku系列更新的期待;负面评价则认为在复杂任务中仍需使用Opus 4.8,同时部分开发者认为其性价比不如其他同价位模型如GLM 5.2。
塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/
AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。




