OpenAI发布GPT-5.4,原生操控电脑,编程碾压Opus 4.6

2026-03-06 14:19:55

北京时间3月6日凌晨,没有任何预热,也没有发布会,OpenAI直接宣布 GPT-5.4 正式上线

从写代码、做 Excel、生成 PPT,到操控浏览器、操作软件界面——这不就是之前爆火的 OpenClaw 吗?

没错,GPT-5.4 不仅是 OpenAI 当前的最强模型,更是全球首个具备原生计算机使用能力的通用模型。

OpenAI CEO 萨姆·阿尔特曼表示:"这是我们做过最好的模型。"OpenAI 研究负责人补充道:“我们看不到它能力的天花板。

100万 Token 上下文(Codex 支持)
83% 职业任务胜率
75% 电脑操控成功率
33% 幻觉降低


GPT-5.4 各项基准测试成绩(来源:Sam Altman 推特)

目前,ChatGPT Plus、Team 和 Pro 用户已可立即体验,原来的 GPT-5.2 Thinking 模式将于 3个月后下线。


01. GPT-5.4 开始接管电脑

GPT-5.4 系列包含两个版本:标准版Pro 版

除 ChatGPT Plus、Team 和 Pro 用户可用外,企业和教育用户可通过管理员开启,API 与 Codex 开发者也可同步接入。

如果只看参数升级,可能会觉得这只是常规迭代。但 GPT-5.4 最大的变化,不是性能,而是它开始会"用电脑"了

它可以识别屏幕截图、操作鼠标和键盘、在不同软件之间切换、完成跨应用任务流程——打开浏览器、搜索资料、下载文件、整理 Excel、生成 PPT、发送邮件,整个流程自动完成,无需人工干预

在桌面环境测试(OSWorld Verified)中,GPT-5.4 的成功率达到 75%,已超过人类平均水平 72.4%。



OSWorld 桌面操控测试:GPT-5.4 成功率超越人类均值(来源:OpenAI 官网)

在玩电脑方面,它已经超过人类平均水平。

AI 不再只是网页或软件,它正在成为电脑的新用户


02. 精通 PPT、Excel,83% 职业任务超人类

对打工人来说,GPT-5.4 将会是最强对手。

OpenAI 推出了名为 GDPval Benchmark 的测试,涵盖 44 种职业的真实任务,包括数据分析、报告撰写、PPT 制作、Excel 建模等。

结果显示,GPT-5.4 在 83% 的情况下表现超过普通办公人员。



GDPval 职业任务测试结果(来源:OpenAI 官网)

  • 投行级 Excel 建模任务得分 87.3%
  • PPT 盲测评审中,68% 的人类评审更偏好 GPT-5.4 的作品——结构更清晰、视觉更统一、图表更合理

更重要的是,它变得更靠谱了。幻觉降低 33%,AI 终于可以被用于严肃商业场景。


03. 编程能力飞跃,Token 速度提升 1.5 倍

编程能力是 GPT-5.4 的核心卖点。新模型融合了 GPT-5.3 Codex 的代码能力,在 SWE Bench Pro 等测试中持平甚至超越 GPT-5.3 Codex,并明显领先 Claude Opus 4.6。



SWE Bench Pro 编程能力测试(来源:OpenAI 官网)

开启 /fast 模式后,Token 生成速度最高提升 1.5 倍。写代码、Debug 的过程中几乎感觉不到延迟,思维流不再被打断。

多数用户体验下来就一个字:顺。

在 Coding 领域,GPT-5.4 终于夺回了被 Claude Opus 4.6 抢走的王座。

参与早期测试的 HyperWrite CEO Matt Shumer 惊叹道:“这绝对是世界上最好的模型,编程能力好到离谱!



开发者对 GPT-5.4 编程能力的第一手反馈

04. 100 万 Token 加持,读完整个项目

上下文窗口的长度,一直是限制大模型处理复杂任务的瓶颈。这一次,OpenAI 把上限拉到了 100 万 Token

什么概念?它可以一次性读取一个完整代码库、几本长篇小说、一个企业知识库,再进行全局分析。

视觉能力同步升级,GPT-5.4 支持最高 1024 万像素的原始图像输入。在 OmniDocBench 文档解析测试中,平均误差率降至 0.109,阅读能力逼近专业工具。

它可以像显微镜一样分析图片,长文本 + 高精图像,两手都硬。


05. 性能保障,价格劝退


标准版

方向 价格
输入 $2.5 / 1M tokens
输出 $15 / 1M tokens

Pro 版

方向 价格
输入 $30 / 1M tokens
输出 $180 / 1M tokens


GPT-5.4 官方定价表(来源:OpenAI 官网)

涨价了,而且涨得不少。

  • GPT-5.4 标准版:输入价格相比 GPT-5.2 上涨 40%,输出上涨 7.14%
  • GPT-5.4 Pro 版:输入 $30 / 输出 $180,开发者社区第一反应:Insane(太疯狂了)

对此,OpenAI 给出的解释是"性价比逻辑":模型更聪明,Token 效率更高,单价虽高,总成本未必更高。

GPT-5.4 新增了工具搜索功能,在 Agent 任务中先读取轻量化工具目录,按需查询具体工具定义。在 Scale 的 MCP Atlas 测试中,启用工具搜索后,Token 消耗减少 47%

当然,这个说法开发者买不买账,还需要市场来验证。


06. 结语

在 Claude 和 Gemini 步步紧逼的 2026 年,OpenAI 选择用产品力回击。

作为首个具备原生电脑操控能力的通用模型,GPT-5.4 证明了在通往 AGI 的道路上,OpenAI 依然领跑全场

我们经历了 OpenClaw,现在也有了清晰的认知——对于每一个打工人来说,最好的应对方式不是恐慌,而是要尽快学会指挥它。
(微信公众号:Tahou_2025)



下载塔猴APP,关注微信公众号「塔猴」,查看更多干货!

记得点赞、转发、推荐,祝大家AI路上不迷路!


声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
生成式大模型