春节AI大战:OpenAI和Anthropic撞车发布,一个让AI造AI,一个给AI开了个16人Team

在黄河边醒酒

2026-02-06 15:22:40

生成式大模型

智能体（Agent）

多智能体协作

20分钟,一场教科书级的"火速回击"

2026年2月5日晚上6点40分,Anthropic发布了Claude Opus 4.6。

仅仅20分钟后,晚上7点整,OpenAI就发布了GPT-5.3-Codex。

两份公告,两个破纪录的模型,一个明确无误的信息:AI战争进入了新阶段。

这不是巧合,这是一场教科书级的"火速回击"。

OpenAI宣布GPT-5.3-Codex是公司迄今为止最强大的自主编程模型,并透露了一个象征性里程碑:GPT-5.3-Codex的部分功能是使用模型早期版本自己优化的——这是一种AI辅助的自我改进。

换句话说:AI已经学会了造AI。

二、OpenAI的杀手锏:AI开始"自己生自己"

OpenAI技术文档里有句极具分量的话:"这是我们第一个在创造自己的过程中发挥了关键作用的模型。"

说人话就是:

AI已经学会了自己写代码
自己找Bug
甚至开始自己训练下一代的AI了

更关键的是,这种自我进化能力能够直接用跑分数据体现。

在OSWorld-Verified基准测试(模拟人类操作电脑)上,前代模型只有38.2%的准确率,完全不及格。但这次,GPT-5.3-Codex直接跳涨到了64.7%。要知道,人类的平均水平也就72%。

这意味着:AI距离像你一样熟练地甩鼠标、切屏、操作软件,已经很近很近了。

在Terminal-Bench 2.0(命令行操作基准测试)中,它更是拿下了77.3%的高分,把GPT-5.2(62.2%)远远甩在身后。

在SWE-Bench Pro基准测试(覆盖四种编程语言,不仅抗污染,还全是真实世界的硬核工程难题)当中,GPT-5.3-Codex也稳定实现SOTA水准,token用量远比以往模型更低。

GPT-5.3-Codex还展示了从零构建的能力:

在OpenAI的测试中,用它在几天时间里从零构建了一款包含多张地图的赛车游戏v2,顺手还搞定了一款管理氧气系统的深海潜水游戏。

还有个有趣的细节:

此前外界盛传OpenAI对英伟达的AI芯片颇有微词,但这次官方博客特地强调:GPT-5.3-Codex的设计、训练和部署都在NVIDIA GB200 NVL72系统上完成。

这一波高情商操作,属实是给足了黄仁勋面子。

三、Claude Opus 4.6:告别"金鱼记忆"的绝地反击

在GPT-5.3-Codex发布的几乎同时,Anthropic也端出了自己的春节大礼包。

核心亮点1:1M上下文窗口

Claude Opus 4.6是Opus系列首个支持100万token上下文窗口的模型,极大扩展了处理和推理大量文档集合的能力。实际上,它现在可以一次性摄入相当于多本书的内容,而不会出现性能崩溃。

这意味着什么?

你可以把几百页的财报、几十万字的代码库直接扔给它,它不仅能读完,还能精准地保存和定位上下文细节,告诉你第342页脚注里的那个数字有问题。

在MRCR v2(长文本大海捞针)测试中,Claude Opus 4.6的召回率高达76%。作为对比,上一代Sonnet 4.5只有惨不忍睹的18.5%。

从某种程度上说,这是一个从基本不可用到高可靠的质变。

核心亮点2:智商碾压

在GDPval-AA(针对金融、法律等高经济价值任务的评估)中,Opus 4.6的Elo得分比业界第二(OpenAI的GPT-5.2)高出了整整144分。

在复杂的多学科推理测试Humanity's Last Exam中,它领先所有前沿模型。

换言之:如果你要处理复杂的商业决策、法律文书或金融分析,Claude是目前唯一的优秀选择。

核心亮点3:Agent Teams(智能体团队)

Anthropic在Claude Code中推出了实验性的Agent Teams功能:你可以指定一个Claude Session担任Team Lead(组长),它不干脏活累活,专门负责拆解任务、分配工单、合并代码;其他的Session则是队友(Teammates),各自领任务去干。

这有什么用?

Rakuten部署了这一功能,看着它自主管理跨6个代码库的50人组织,一天之内关闭了13个issue。

为了展示Opus 4.6的极限,Anthropic研究员Nicholas Carlini做了个疯狂的实验:充值了2万美元的API额度,让16个Claude Opus 4.6组成一个"全自动软件开发团队"。结果在短短两周内,这群AI自主进行了2000多个编程会话,从零手写了一个10万行代码的C语言编译器(基于Rust)。

这个AI写的编译器,还成功编译了Linux 6.9内核,甚至跑通了Doom游戏。

四、一个是激进天才,一个是靠谱老牛

知名AI评测人Dan Shipper在第一时间搞了个"盲测"(Vibe Check),他的评价非常精准:

Claude Opus 4.6是"高上限,高方差"(High Ceiling, High Variance)。

它像是一个才华横溢但偶尔跳脱的天才。在测试中,它直接解决了一个让iOS团队卡了两个月的功能难题。

但它偶尔也会"过度自信",一本正经地胡说八道。

GPT-5.3-Codex则是"高可靠,低方差"(High Reliability, Low Variance)。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升25%,几乎不犯低级错误,稳健得让人心安。

虽然在创造性任务上略逊一筹,但在日常的Coding和运维任务中,它是最高效的老黄牛。

五、这场"撞车"背后的真相

真相1:春节AI大战,先从硅谷开打

Anthropic在2月5日发布Opus 4.6,仅仅3天前,OpenAI刚刚发布了Codex AI编程系统的新桌面应用。

这个时间点的选择,绝非偶然。

两家公司都将在超级碗期间播放竞争性广告,这标志着两家领先AI实验室之间市场竞争的激烈程度。

真相2:AI正在从"工具"变成"员工"

AI正在从"你咨询的工具"毕业为"你委派工作的同事"。问题不是AI是否会做知识工作,而是哪个AI能为你的具体需求做得最好。

比起选择哪款模型,更重要的是:

当ChatGPT可以自主修Bug甚至操作你的终端,当Claude可以一次性吞吐海量文档并精准定位细节时,Prompt Engineering(提示词工程)的重要性正在下降,而Agent Management(智能体管理)的能力开始浮出水面。

我们不再需要像教小学生一样,把指令拆解得碎碎念。相反,我们需要做的,是学会如何以管理者的身份,去定义目标、审核结果、以及决定在什么时候,把什么任务交给哪位AI员工。

六、结语:2026年的新职场

企业平均LLM支出在2025年达到700万美元(比2024年的250万美元增长180%),预计2026年将达到1160万美元。

根据Andreessen Horowitz最近的调查,44%的企业现在在生产环境中使用Anthropic——而2024年3月这一比例几乎为零——而OpenAI仍是使用最广泛的AI提供商,截至2026年1月有77%的受访公司在生产环境中使用它。

这就是2026年的新职场:

你的团队里混入了一群硅基天才,而你是唯一的碳基老板。

以上内容不代表本平台立场，仅供读者参考