72 小时闪电反击：Opus 4.6 如何让 OpenAI 措手不及

在黄河边醒酒

2026-02-06 11:42:45

大模型

企业级大模型

智能体（Agent）

模型优化

文章摘要

OpenAI 刚发 Codex，72 小时后被 Anthropic 打脸

昨天，Anthropic 发布了 Claude Opus 4.6。

周二，全球软件股暴跌 2850 亿美元。

这两件事有什么关系？关系大了。投资者恐慌性抛售软件股，就是因为害怕 Anthropic 的 AI 工具会颠覆整个企业软件行业。

高盛追踪的美国软件股篮子暴跌 6%，创下自去年 4 月关税引发抛售以来的最大单日跌幅。Thomson Reuters 狂泻 15.83%，创下史上最大单日跌幅。Legalzoom.com 暴跌 19.68%。欧洲的法律软件巨头 RELX（LexisNexis 母公司）和 Wolters Kluwer 也经历了几十年来最惨烈的一天。

而引发这场血洗的导火索，就是 Anthropic 上周五发布的 Claude Cowork 插件——能自动化处理法律、销售、营销和数据分析任务的 AI 智能体。

现在，Opus 4.6 来了，带着更强的能力、更长的上下文窗口、还有多智能体协作功能。这场 AI 革命，才刚刚开始。

第一章：Opus 4.6 强在哪？三天干翻 OpenAI

这次发布的时机很微妙。

就在三天前，OpenAI 刚刚发布了 Codex 桌面应用，直接对标 Anthropic 的 Claude Code。结果 72 小时后，Anthropic 就发布了 Opus 4.6，用实力回击。

这种速度，说明两家公司已经杀红了眼。

核心升级一：100 万 token 上下文窗口

这是 Opus 系列首次支持 100 万 token 的超长上下文。什么概念？意味着 AI 能一次性处理和推理的信息量，是之前版本的数倍。

更关键的是，Anthropic 解决了困扰 AI 行业已久的上下文衰减问题——也就是对话越长、模型性能越差的毛病。

在 MRCR v2 测试中（测试模型能否在海量文本中找到隐藏信息），Opus 4.6 得分 76%，而 Sonnet 4.5 只有 18.5%。这是质的飞跃。

核心升级二：智能体团队协作

Anthropic 在 Claude Code 中引入了智能体团队功能——多个 AI 可以同时处理一个编码项目的不同部分，并且能自主协调。

Anthropic 发言人解释说：用户可以把工作分配给多个智能体——一个负责前端，一个负责 API，一个负责数据迁移——每个智能体管好自己的部分，然后彼此直接协调。

这意味着什么？软件开发从跟一个 AI 助手协作，变成了管理一个 AI 团队。

核心升级三：碾压 GPT-5.2 的性能

根据 Anthropic 官方测试数据：

Terminal-Bench 2.0：智能体编程评估，Opus 4.6 拿下最高分。

Humanity's Last Exam：复杂多学科推理测试，同样领先所有竞争对手。

GDPval-AA：衡量在金融、法律等领域经济价值任务上的表现，Opus 4.6 比 OpenAI 的 GPT-5.2 高出约 144 ELO 分——相当于 70% 的时间都能拿更高分。

简单说，在大部分关键指标上，Opus 4.6 都碾压了 GPT-5.2。

根据 Anthropic 的内部测试，Claude Opus 4.6 在大多数基准测试类别中领先或与竞争对手持平。该模型在自主任务、办公工作和创新问题解决方面表现尤为出色。（来源：Anthropic）

Claude Code 的 10 亿美元奇迹

为什么 OpenAI 这么急着推出 Codex 桌面版？因为 Claude Code 增长太猛了。

去年 11 月，Anthropic 宣布 Claude Code 在正式发布仅 6 个月后，年化收入就突破了 10 亿美元。

而且企业客户名单豪华得吓人：

• Uber 全公司多个团队在用——软件工程、数据科学、财务、信任与安全

• Salesforce 全球工程组织全面部署

• Accenture 数万名开发者在用

• Spotify、Rakuten、Snowflake、Novo Nordisk、Ramp 等各行业巨头

这种企业吸引力，直接反映在估值上。本月初，Anthropic 签署了一轮 100 亿美元融资的条款书，估值 3500 亿美元。据彭博报道，公司还在同时推进员工股份出售计划，让员工能以这个估值套现。

从 2021 年成立到估值 3500 亿美元，Anthropic 用了不到 5 年。

市场数据揭秘——OpenAI vs Anthropic 谁在赢？

根据 a16z 最新的企业 AI 调查数据，格局正在快速变化。

OpenAI 依然占据主导

2026 年 1 月，约 77% 的受访企业在生产环境中使用 OpenAI。这个数字依然领先。

但 Anthropic 增速惊人

从 2024 年 3 月的接近零，到 2026 年 1 月的约 40% 企业在生产环境使用——Anthropic 的市场份额增长是所有前沿实验室中最快的。

更关键的数据是转化率：

• Anthropic 客户中，75% 已部署到生产环境，89% 在测试或生产中

• OpenAI 客户中，46% 在生产环境，73% 在测试或生产中

这说明什么？Anthropic 的客户转化率和深度使用率都略高于 OpenAI。

企业 AI 支出暴涨

企业平均大语言模型支出：2024 年 250 万美元 → 2025 年 700 万美元（增长 180%）→ 2026 年预计 1160 万美元（同比增长 65%）。

超级碗广告大战——Sam Altman vs Dario Amodei

两家公司的竞争，已经从技术层面烧到了营销层面。

这个周日的超级碗上，Anthropic 会播放一系列广告，嘲讽 OpenAI 决定在 ChatGPT 里测试广告的做法。广告语是：广告正在进入 AI，但不会进入 Claude。

OpenAI CEO Sam Altman 在 X 上回击，说这些广告很搞笑，但明显不诚实，OpenAI 显然不会以 Anthropic 描述的方式投放广告，而且 Anthropic 想控制人们如何使用 AI，同时向有钱人出售昂贵的产品。

这场争吵暴露了根本性的战略分歧：OpenAI 选择通过广告变现其庞大的免费用户群，而 Anthropic 几乎完全聚焦企业销售和高端订阅。

2850 亿美元股灾背后的恐慌

回到周二的股市血洗。

Anthropic 上周五发布的 Claude Cowork 插件，能自动化处理法律、销售、营销和数据分析任务。投资者一看：完了，企业软件要被 AI 替代了。

于是疯狂抛售。软件股、金融服务股、资产管理股，只要跟这些行业沾边的，全线暴跌。

法律软件公司受创最严重。Thomson Reuters 创纪录暴跌，Legalzoom.com 惨不忍睹，欧洲的 RELX 和 Wolters Kluwer 也遭遇几十年来最惨的一天。

但也不是所有人都认同这种恐慌。

英伟达 CEO 黄仁勋周二表示，担心 AI 会取代软件和相关工具是不合逻辑的，时间会证明一切。摩根大通美国企业软件研究主管 Mark Murphy 也说，认为一个大语言模型的新插件会取代每一层关键企业软件，感觉是不合逻辑的跳跃。

但市场已经用脚投票了。无论这种恐慌是否合理，2850 亿美元已经蒸发了。

Claude 进入 PowerPoint——微软的尴尬时刻

这次发布还有个有意思的细节：Anthropic 宣布 Claude 将以研究预览版形式进入 PowerPoint。

这事儿为什么微妙？因为微软持有 OpenAI 27% 的股份，现在竞争对手 Anthropic 的 AI 却要进入微软的核心产品。

Anthropic 发言人的解释很务实：微软有官方的 Office 产品插件市场，任何开发者都可以为 Excel 或 PowerPoint 构建插件。我们只是参与这个生态系统，把 Claude 带入 PowerPoint。这是为了让用户能在他们想要的程序中使用他们想要的工具。

话说得漂亮，但这对微软来说确实有点尴尬——一边投资 OpenAI，一边让竞争对手进入自己的产品生态。

如图所示，Claude 的全新 PowerPoint 集成功能（用于分析市场调研幻灯片）将 Anthropic 的人工智能直接集成到微软的旗舰产品中——尽管微软对竞争对手 OpenAI 投入巨资。（来源：Anthropic）

安全平衡——更强大的 AI，更低的风险？

Anthropic 一直以 AI 安全研究立身。这次发布，他们特别强调 Opus 4.6 在增强能力的同时，保持了与前代相同的安全水平。

在自动化行为审计中（测量欺骗、阿谀奉承、配合滥用等不当行为），Opus 4.6 显示出低比例的问题响应，同时也是所有近期 Claude 模型中过度拒绝率最低的——也就是说，对正常查询的误拦截最少。

当被问到如何看待智能体变得更自主后的安全护栏问题，尤其是多个智能体自主协调时，Anthropic 发言人指向了公司去年发布的框架：智能体在工作中有巨大的积极影响潜力，但重要的是智能体继续保持安全、可靠和值得信赖。

公司还开发了 6 种新的网络安全探针，用于检测模型增强能力的潜在有害用途，并且正在使用 Opus 4.6 帮助发现和修补开源软件中的漏洞，作为防御性网络安全工作的一部分。

Anthropic公司表示，其最新型号的Claude机器人，在功能增强的同时，其问题行为（包括欺骗和奉承）的发生率在所有测试过的Claude版本中最低。（来源：Anthropic）

价格、可用性和开发者需要知道的事

Opus 4.6 已经在 claude.ai、Claude API 和主要云平台上线。开发者可以通过 API 使用 claude-opus-4-6 调用。

定价保持不变：每百万输入 token 5 美元，每百万输出 token 25 美元。如果使用 100 万 token 上下文窗口且提示词超过 20 万 token，价格分别为 10 美元和 37.5 美元。

Anthropic 还推出了几个新的 API 功能：

自适应思考：让 Claude 自己决定什么时候需要深度推理，而不是简单的开关选择。

四档努力级别：低、中、高、最高，用来控制智能程度、速度和成本的平衡。

上下文压缩：测试功能，自动总结旧的上下文，让长时间运行的任务成为可能。

如果你发现 Opus 4.6 在简单任务上过度思考（Anthropic 承认这会增加成本和延迟），可以把努力参数从默认的高调到中。

OpenAI 和 Anthropic 之间的战争，已经从技术层面烧到了营销层面、股市层面、甚至意识形态层面。一个选择用广告变现免费用户，一个坚持高端企业路线。一个估值更高，一个增速更快。

但无论谁赢，有一点是确定的：传统企业软件的好日子，可能真的要结束了。当 AI 能自动化处理法律文件、财务分析、数据处理，那些靠卖软件许可证躺赚的公司，还能躺多久？

2850 亿美元的股市蒸发，只是开始。

接下来会发生什么？没人知道。但有一点可以确定：变化的速度，比我们想象的快得多。

以上内容不代表本平台立场，仅供读者参考