文章摘要
AI厂商推出Claude Sonnet 5模型,定位为Sonnet系列中自主性最强产品。它性能超越前代,缩小与Opus 4.8差距,推广期定价低。在低、中等算力场景性价比高,适用于多类工程任务,但在超高算力投入等方面有不足,发布后社区反馈呈混合态势。

近期,AI厂商推出了全新的Claude Sonnet 5模型,官方将其定位为当前Sonnet系列中自主性最强的产品,支持任务规划、浏览器与终端操作,能够在长周期任务中实现稳定自主运行。

目前,免费与专业计划用户已默认可以使用该模型,团队、企业级以及Max套餐用户也可手动选择,同时Sonnet 5已经同步接入Claude Code以及Claude开发平台。

核心亮点速览

  • Sonnet 5是Anthropic旗下自主性最强的中端模型,大幅缩小了与旗舰模型Opus 4.8的性能差距
  • 在所有公开基准测试中均超越了上一代Sonnet 4.6模型,包括63.2%的SWE-bench Pro得分、81.2%的OSWorld-Verified得分以及57.4%的Humanity’s Last Exam得分
  • 定价更具优势:推广期内每百万输入/输出令牌分别为2美元和10美元,截止到2026年8月31日,之后将调整为3美元/15美元每百万令牌,而Opus 4.8的定价为5美元/25美元每百万令牌
  • 在低、中等算力投入场景下拥有极佳的性价比,但在超高算力投入模式下,成本可能会超过同性能的Opus 4.8
  • 安全性优于Sonnet 4.6,且刻意限制了网络安全相关的能力,对于对精度要求极高的任务,仍建议使用Opus 4.8

Sonnet系列处于Anthropic产品矩阵的中端位置,上方是旗舰级的Opus 4.8,下方则是定位高并发、低延迟的Haiku 4.5。Sonnet 5是2026年2月推出的Sonnet 4.6的升级版本,本次更新的核心聚焦于自主性可靠性,而非单一的基准测试分数。

具体来说,Sonnet 5能够支持更长的任务链且不会丢失上下文,在工具调用失败时可以实现更好的自我修正,同时在Claude Code或Cowork的长会话中表现更加稳定。该模型提供了四种算力投入档位:低、中、高以及超高(xhigh),算力投入越高,模型会花费更多的令牌用于推理,从而提升质量但也会增加成本。

需要注意的是,Sonnet 5采用了与Opus 4.7相同的更新版分词器,相同的文本内容可能会产生1.0到1.35倍的令牌数量,这一点需要在使用时特别关注。

基准测试表现

Anthropic官方发布了Sonnet 5、Sonnet 4.6以及Opus 4.8的对比基准测试数据,Sonnet 5在所有测试类别中均超越了上一代Sonnet 4.6,大幅缩小了与Opus 4.8的差距。

在智能编码测试(SWE-bench Pro)中,Sonnet 5得分为63.2%,Sonnet 4.6为58.1%,Opus 4.8以69.2%位居第一

在计算机操作测试(OSWorld-Verified)中,Sonnet 5得分为81.2%,Sonnet 4.6为78.5%;在Terminal-Bench 2.1测试中,Sonnet 5得分80.4%,Sonnet 4.6为67.0%

在带工具的Humanity’s Last Exam测试中,Sonnet 5得分为57.4%,几乎追平Opus 4.8的57.9%

在GDPval-AA v2知识工作基准测试中,Sonnet 5以1618分小幅领先Opus 4.8的1615分

算力档位与性价比权衡

对于开发者来说,Sonnet 5的性价比是最核心的亮点。该模型在所有算力档位上均严格优于Sonnet 4.6,在低、中等算力投入场景下的价值最为明显。

在这些档位下,Sonnet 5能够提供此前Sonnet系列无法企及的性能表现,而Opus 4.8仍然是高精度任务的首选。基于此,我们可以得出实用的模型选择策略:将大部分智能编码、工具使用以及知识工作任务交给Sonnet 5,将Opus 4.8留给对精度要求极高的任务,而Haiku 4.5则适用于高并发、低延迟的调用场景。

典型适用场景

早期合作用户分享了多个实际落地的工作流,覆盖了常见的工程任务:

  • 多步骤软件工程:一名测试人员让Sonnet 5排查一个bug,模型自动编写了复现测试用例,实现了修复方案,随后验证了未修复版本中bug仍然存在,整个流程一次性完成
  • 遗留系统调试:另一位用户将Sonnet 5用于复杂的拉取请求分析,模型能够追溯故障的根本原因,输出稳定的修复方案而非表面的临时补丁
  • 业务自动化:Zapier将一个两分任务交给Sonnet 5,模型先更新了Salesforce的账户层级,随后向企业联系人发送了启动邮件,完整完成了端到端的任务
  • 计算机操作代理:Pace使用该模型处理保险工作流,包括提交受理和损失核算,代理可以直接在团队已使用的运营系统上完成操作
  • 数据探索:ClickHouse代理可以实时查询数据并生成洞察,更快的推理速度让分析师能够更快获得结论

核心参数对比表

指标/规格 Sonnet 4.6 Sonnet 5 Opus 4.8
智能编码(SWE-bench Pro) 58.1% 63.2% 69.2%
Terminal-Bench 2.1 67.0% 80.4% 未公开
计算机操作(OSWorld-Verified) 78.5% 81.2% 未公开
带工具的Humanity’s Last Exam 46.8% 57.4% 57.9%
知识工作(GDPval-AA v2) 未公开 1618 1615
输入定价(美元/百万令牌) 3 推广期2,之后3 5
输出定价(美元/百万令牌) 15 推广期10,之后15 25

Sonnet 5的推广定价将持续到2026年8月31日,之后将切换为标准定价3美元/15美元每百万令牌。官方的标准提示缓存功能和50%的批量API折扣同样适用于Sonnet 5。按每令牌计算,Sonnet 5的价格低于GPT-5.5和Gemini 3.1 Pro,但高于Gemini 3.5 Flash。Anthropic在发布公告中提到,Sonnet 5的上下文窗口为100万令牌,但未公开其他模型的上下文窗口参数。

API调用示例

Sonnet 5的API调用方式与其他Anthropic模型完全一致,仅需要将模型字符串修改为claude-sonnet-5即可:

import anthropic
client = anthropic.Anthropic()  # 自动读取环境变量中的ANTHROPIC_API_KEY
message = client.messages.create(
    model="claude-sonnet-5",
    max_tokens=1024,
    messages=[
        {"role": "user",content": "Find the race condition in worker.py and ship a tested fix."}
    ],
)
print(message.content[0].text)

优势与不足

优势

  • 在所有Anthropic公开测试的基准类别中均优于Sonnet 4.6
  • 多项评测中接近Opus 4.8的性能,同时拥有更低的每令牌定价
  • 在GDPval-AA v2知识工作基准测试中小幅领先Opus 4.8
  • 幻觉、谄媚以及不良行为的发生率低于Sonnet 4.6
  • 无需额外适配,仅需替换模型字符串即可完成API调用

不足

  • Opus 4.8仍然在最高精度要求的任务中表现更优
  • 在超高算力投入档位下,成本可能会超过同性能的Opus 4.8
  • 新的分词器可能会使令牌数量增加最多1.35倍
  • 刻意限制了网络安全相关能力,如需合规的网络安全工作,仍需使用Opus 4.8
  • 标准定价3美元/15美元每百万令牌将在2026年8月31日后生效

行业社区反馈

在2026年6月30日发布当天,开发者社区对Sonnet 5的反馈呈现混合态势:整体有38%的正面评价、38%的中性评价以及25%的负面评价。

正面评价主要聚焦于其性价比,尤其是推广期的定价,以及在编码和工具使用场景中的性能提升;中性评价则多关注其在标准定价后的竞争力,以及对Haiku系列更新的期待;负面评价则认为在复杂任务中仍需使用Opus 4.8,同时部分开发者认为其性价比不如其他同价位模型如GLM 5.2。


塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考