文章摘要
Anthropic推出Claude Sonnet 5,它功能更强、自主智能属性突出,能自主完成任务。自主智能体能力成大模型标配,厂商竞争焦点转向成本与可靠性。Sonnet 5成本低、性能优,安全性能也有提升,但处理对齐不当行为未达顶级水准。

如今,具备自主智能体能力已经成为大模型厂商的标配竞争门槛,Anthropic近期推出了Claude Sonnet 5,这是该机构中型模型产品线中功能更强、自主智能属性更突出的新版本。

据该公司官方介绍,这款新模型能够自主制定计划、调用浏览器、终端等工具完成任务,其自主运行的能力水准,在数月前还只有更大、成本更高的旗舰模型才能达到。

这一产品定位与其他头部厂商的近期动作形成了呼应:上周刚刚开启预览版的OpenAI GPT-5.6 Sol,是该公司目前自主智能属性最强的模型,支持用户通过子代理拆分任务,完成更长周期的自主工作;而今年5月发布的Google Gemini 3.5 Flash,则被定位为从对话式聊天工具转向自主智能体的转型产品,能够在极少人类干预的情况下完成规划、构建和迭代实际工作。

Sonnet 5的推出也印证了一个行业趋势:自主智能体能力已经成为所有价位段大模型的基础标配,如今厂商之间的竞争焦点不再是谁能率先实现自主功能,而是谁能以更低的成本、更稳定无需过多人工监督的方式提供这类服务。

Anthropic表示,Sonnet 5的性能表现接近其旗舰模型Opus 4.8,但成本要低得多。从本周二开始,Claude Sonnet 5将成为免费和Pro订阅计划的默认模型,所有付费订阅用户都可以使用这款新模型。

在上线初期,Sonnet 5的定价为每百万输入令牌2美元,每百万输出令牌10美元,这一优惠价格将持续到8月31日。之后,输入令牌的定价将上调至每百万3美元,输出令牌则为每百万15美元。对比来看,Sonnet 5的价格比Opus 4.8、OpenAI的GPT-5.5以及Google的 Gemini 3.1 Pro都要更低,不过依然比Gemini 3.5 Flash要贵一些。

除了对标旗舰模型,Sonnet 5相比今年2月发布的前代产品Sonnet 4.6,在自主智能相关的性能上有了显著提升,包括推理能力、工具调用、软件开发编码以及知识工作相关的表现都有优化。

比如在一项自主编码的基准测试中,Sonnet 5的得分达到了63.2%,而Opus 4.8的得分是69.2%,Sonnet 4.6则为58.1%。在知识工作的基准测试中,Sonnet 5甚至略微超过了以解决高难度复杂问题、精细判断和深度研究见长的Opus 4.8。

Anthropic方面表示,Opus 4.8依然是高精度复杂任务的首选模型,但Sonnet 5为开发者提供了成本更低、性能远超以往的新选择。用户可以在Sonnet 5和Opus 4.8之间灵活调整,找到成本和性能的最佳平衡点。

根据官方博客中引用的测试人员反馈,Sonnet 5能够出色完成复杂任务,而前代模型往往会中途停滞,甚至能够在无需额外提示的情况下自行检查输出结果。

Zapier的高级工程师Daniel Shepard分享了实际测试案例:他们给Sonnet 5布置了两项连贯任务——更新Salesforce的账户层级,并向企业联系人发送产品上线通知,结果模型完整完成了全流程的工作,而这类任务之前往往会卡在中途。对于日常自动化工作来说,这款模型的表现无疑是极具吸引力的选择。

在安全性能方面,Sonnet 5相比前代产品,出现恶意协作、欺骗等不良行为的概率更低,在自主智能场景下的使用安全性更高。它能够更好地拒绝恶意请求,规避prompt注入攻击中的劫持尝试,同时出现幻觉和谄媚行为的频率也比Sonnet 4.6更低。

不过,在处理对齐不当的行为方面,Sonnet 5还没有达到Opus 4.8和Claude Mythos Preview的水准。官方博客提到,测试显示Sonnet 5执行危险网络安全任务的能力,远低于当前的Opus系列模型。

Lovable联合创始人Fabian Hedin也对Sonnet 5的安全表现给予了肯定,他表示这款模型能够清晰且一致地拒绝不安全的请求。他补充道:“我们正在将强大的工具交到数百万开发者手中,一款知道何时说不的模型,和一款知道如何构建的模型同样重要。”

本次发布的内容已经修正了此前关于8月31日后输出令牌定价的相关说明。

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考