OpenAI发布GPT-5.4,原生操控电脑,编程碾压Opus 4.6
北京时间3月6日凌晨,没有任何预热,也没有发布会,OpenAI直接宣布 GPT-5.4 正式上线。
从写代码、做 Excel、生成 PPT,到操控浏览器、操作软件界面——这不就是之前爆火的 OpenClaw 吗?
没错,GPT-5.4 不仅是 OpenAI 当前的最强模型,更是全球首个具备原生计算机使用能力的通用模型。
OpenAI CEO 萨姆·阿尔特曼表示:"这是我们做过最好的模型。"OpenAI 研究负责人补充道:“我们看不到它能力的天花板。”
100万 Token 上下文(Codex 支持)
83% 职业任务胜率
75% 电脑操控成功率
33% 幻觉降低
GPT-5.4 各项基准测试成绩(来源:Sam Altman 推特)
目前,ChatGPT Plus、Team 和 Pro 用户已可立即体验,原来的 GPT-5.2 Thinking 模式将于 3个月后下线。
01. GPT-5.4 开始接管电脑
GPT-5.4 系列包含两个版本:标准版与 Pro 版。
除 ChatGPT Plus、Team 和 Pro 用户可用外,企业和教育用户可通过管理员开启,API 与 Codex 开发者也可同步接入。
如果只看参数升级,可能会觉得这只是常规迭代。但 GPT-5.4 最大的变化,不是性能,而是它开始会"用电脑"了。
它可以识别屏幕截图、操作鼠标和键盘、在不同软件之间切换、完成跨应用任务流程——打开浏览器、搜索资料、下载文件、整理 Excel、生成 PPT、发送邮件,整个流程自动完成,无需人工干预。
在桌面环境测试(OSWorld Verified)中,GPT-5.4 的成功率达到 75%,已超过人类平均水平 72.4%。
OSWorld 桌面操控测试:GPT-5.4 成功率超越人类均值(来源:OpenAI 官网)
在玩电脑方面,它已经超过人类平均水平。
AI 不再只是网页或软件,它正在成为电脑的新用户。
02. 精通 PPT、Excel,83% 职业任务超人类
对打工人来说,GPT-5.4 将会是最强对手。
OpenAI 推出了名为 GDPval Benchmark 的测试,涵盖 44 种职业的真实任务,包括数据分析、报告撰写、PPT 制作、Excel 建模等。
结果显示,GPT-5.4 在 83% 的情况下表现超过普通办公人员。
GDPval 职业任务测试结果(来源:OpenAI 官网)
- 投行级 Excel 建模任务得分 87.3%
- PPT 盲测评审中,68% 的人类评审更偏好 GPT-5.4 的作品——结构更清晰、视觉更统一、图表更合理
更重要的是,它变得更靠谱了。幻觉降低 33%,AI 终于可以被用于严肃商业场景。
03. 编程能力飞跃,Token 速度提升 1.5 倍
编程能力是 GPT-5.4 的核心卖点。新模型融合了 GPT-5.3 Codex 的代码能力,在 SWE Bench Pro 等测试中持平甚至超越 GPT-5.3 Codex,并明显领先 Claude Opus 4.6。
SWE Bench Pro 编程能力测试(来源:OpenAI 官网)
开启 /fast 模式后,Token 生成速度最高提升 1.5 倍。写代码、Debug 的过程中几乎感觉不到延迟,思维流不再被打断。
多数用户体验下来就一个字:顺。
在 Coding 领域,GPT-5.4 终于夺回了被 Claude Opus 4.6 抢走的王座。
参与早期测试的 HyperWrite CEO Matt Shumer 惊叹道:“这绝对是世界上最好的模型,编程能力好到离谱!”
开发者对 GPT-5.4 编程能力的第一手反馈
04. 100 万 Token 加持,读完整个项目
上下文窗口的长度,一直是限制大模型处理复杂任务的瓶颈。这一次,OpenAI 把上限拉到了 100 万 Token。
什么概念?它可以一次性读取一个完整代码库、几本长篇小说、一个企业知识库,再进行全局分析。
视觉能力同步升级,GPT-5.4 支持最高 1024 万像素的原始图像输入。在 OmniDocBench 文档解析测试中,平均误差率降至 0.109,阅读能力逼近专业工具。
它可以像显微镜一样分析图片,长文本 + 高精图像,两手都硬。
05. 性能保障,价格劝退
标准版
| 方向 | 价格 |
|---|---|
| 输入 | $2.5 / 1M tokens |
| 输出 | $15 / 1M tokens |
Pro 版
| 方向 | 价格 |
|---|---|
| 输入 | $30 / 1M tokens |
| 输出 | $180 / 1M tokens |
GPT-5.4 官方定价表(来源:OpenAI 官网)
涨价了,而且涨得不少。
- GPT-5.4 标准版:输入价格相比 GPT-5.2 上涨 40%,输出上涨 7.14%
- GPT-5.4 Pro 版:输入 $30 / 输出 $180,开发者社区第一反应:Insane(太疯狂了)
对此,OpenAI 给出的解释是"性价比逻辑":模型更聪明,Token 效率更高,单价虽高,总成本未必更高。
GPT-5.4 新增了工具搜索功能,在 Agent 任务中先读取轻量化工具目录,按需查询具体工具定义。在 Scale 的 MCP Atlas 测试中,启用工具搜索后,Token 消耗减少 47%。
当然,这个说法开发者买不买账,还需要市场来验证。
06. 结语
在 Claude 和 Gemini 步步紧逼的 2026 年,OpenAI 选择用产品力回击。
作为首个具备原生电脑操控能力的通用模型,GPT-5.4 证明了在通往 AGI 的道路上,OpenAI 依然领跑全场。
我们经历了 OpenClaw,现在也有了清晰的认知——对于每一个打工人来说,最好的应对方式不是恐慌,而是要尽快学会指挥它。
(微信公众号:Tahou_2025)
记得点赞、转发、推荐,祝大家AI路上不迷路!



