文章摘要
TerminalWorld作为首个完全基于真实人类终端轨迹的CLI工作流基准,从8万余条开发者自愿上传的终端录像中自动逆向工程出1,530个可执行评测任务,覆盖18个真实工作流类别与1,280个独特命令工具。

TerminalWorld作为首个完全基于真实人类终端轨迹的CLI工作流基准,从8万余条开发者自愿上传的终端录像中自动逆向工程出1,530个可执行评测任务,覆盖18个真实工作流类别与1,280个独特命令工具。对前沿大模型与主流Agent框架的全面评测显示,当前最优系统在真实终端任务上的通过率仅为62.5%,且专家手工基准上的高分与真实场景表现仅呈弱相关(Pearson r=0.20)。TerminalWorld的出现标志着AI Agent评估从“专家出题”向“真实世界出题”的根本范式转变。

首个真实CLI工作流基准TerminalWorld

一、TerminalWorld诞生的背景与动因

1.1 被忽视的“终端金矿”

AI Agent正在重塑软件开发。写代码、修bug的能力肉眼可见地往上涨。但软件开发从来不止“写代码”这一件事——装环境、配依赖、部署服务、编排容器、管理云资源、处理安全策略,这些“让软件活起来”的脏活累活,才是真实开发的大头。而它们几乎都发生在同一个地方:终端

终端是工程师干这一切的主战场。几十年下来,它沉淀了人类最密集、最真实的工程操作轨迹。每一次部署,每一次排障,每一次环境搭建,都是一段被真实意图驱动的操作序列。可这批真实人类的终端操作轨迹,恰恰是Agent测评里被忽视最久的一座金矿。

1.2 现有基准的两大盲区

现有的终端Agent基准(如Terminal-Bench)几乎都在做同一件事:让领域专家坐下来,手工出题。而这条路有两个被集体忽视的盲区:

盲区一:题目不够真实。 专家出题为了拉开难度,难免偏爱刁钻的、对抗性的谜题,可这类题和工程师每天真正面对的工作流之间,隔着一道隐形的墙。榜单上的高分,未必换得来真实世界里的“会干活”。

盲区二:基准会过时。 工具在变,命令在变,工作流也在变,可手工基准从出题那天起就被钉死了,成了一张静态快照。当模型早已用上最新的工具,旧基准却还在拿过时的题考它,自然测不出它真正的能力。

1.3 研究团队与学术背景

TerminalWorld由伦敦大学学院(UCL)、南京大学、腾讯的研究团队合作完成,聚焦于用真实世界的人类行为数据构建更现实、可持续更新的Agent评测体系。论文第一作者为UCL博士生储朝阳,研究方向为面向真实世界软件工程工作流的可靠代码智能体。

论文标题为《TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks》,于2026年5月21日提交至arXiv。项目主页、数据集与代码仓库均已公开。

二、TerminalWorld的核心数据来源

2.1 asciinema:一座一直没人开采的金矿

TerminalWorld的数据来源是asciinema(https://asciinema.org/),一个开发者自愿分享终端会话录像的公开平台。每一条录像,都是某个真实的开发者,在某个真实的时刻,干完了一件真实的事——没有出题人,没有人为设计的难度,只有最原始的人类操作。

asciinema提供的不是抽象的日志,而是带有时间戳的完整操作序列。研究团队可以精确追踪人类开发者在每个步骤中输入了什么命令、看到了什么输出、如何根据反馈调整下一步操作。这种“过程数据”而非“结果数据”,是TerminalWorld区别于所有此前基准的核心资产。

2.2 数据规模:80,870条真实录像

研究团队从asciinema平台收集了80,870条真实终端操作录像。这一规模足以覆盖从日常短操作到超过50步的复杂工作流的完整光谱。

2.3 原始数据的真实性与多样性

这些录像的独特价值在于其**“在野”(in-the-wild)** 属性:

  • 真实性:每一条命令都是真实开发者在真实场景中为解决真实问题而敲下的,不存在任何人为设计的痕迹
  • 多样性:涵盖从单行命令到多步部署流水线的完整难度谱系
  • 时效性:asciinema持续接收新录像,使基准可以随工具和工作流的演变而持续更新

三、TerminalWorld的自动构建引擎

3.1 从录像到任务的“逆向工程”

TerminalWorld的核心创新在于其自动逆向工程能力。研究团队开发了一套可扩展的数据引擎,能够从原始的人类终端录像中自动提取出可执行、可验证的评测任务。

这一过程的关键突破在于:传统方法需要人工将录像“翻译”成评测任务,而TerminalWorld的数据引擎能够自动完成这一转换——它识别录像中的操作意图、提取关键步骤、构建可复现的测试环境、验证结果的正确性。

3.2 Agent Skills:核心合成原语

Terminal-World的自动化管道以Agent Skills(智能体技能) 作为核心合成原语。Agent Skills同时编码了三类信息:

  • 做什么(what to accomplish):任务的目标描述
  • 何时应用(when to apply):前置条件与环境状态
  • 如何执行(how to execute):具体的操作步骤

通过将技能组合为技能团队(skill teams)技能图谱(skill graphs) ,Terminal-World实现了多角色与跨领域任务的自动合成。

3.3 持续更新的能力

Terminal-World的数据引擎使其具备可持续更新的能力。随着asciinema平台上新录像的不断上传,引擎可以自动处理新数据、生成新任务,使基准始终保持与开发者实践同步。这解决了手工基准“从出题那天起就被钉死”的根本缺陷。

四、TerminalWorld的基准规模与覆盖

4.1 核心数据一览

经过自动逆向工程处理,Terminal-World的数据引擎产出了一套完整的基准测试集:

指标 数据
处理原始录像 80,870条
生成验证任务 1,530个
真实工作流类别 18个
独特命令工具 1,280个
任务步数范围 单行命令至50+步
人工审核子集(Verified) 200个代表性任务

4.2 18个真实工作流类别

TerminalWorld覆盖的18个真实工作流类别中,特别强调了此前基准中严重缺失的领域:

  • 容器编排(Container Orchestration)
  • CI/CD流水线(CI/CD Pipelines)
  • 云基础设施管理(Cloud Infrastructure Management)

这些类别恰恰是当今软件开发中“让软件活起来”的核心环节,也是终端Agent最应该具备的能力。

4.3 Verified子集:200个人工审核任务

从1,530个验证任务中,研究团队精选了200个代表性任务构成TerminalWorld-Verified子集,每个任务均经过人工审核。这一子集被用作对前沿模型与Agent进行基准测试的严格试验场。

五、TerminalWorld评测结果

5.1 整体表现:最优通过率仅62.5%

研究团队在TerminalWorld-Verified上对8个前沿大模型6个Agent框架进行了全面评测。结果显示,当前系统在处理真实终端工作流时仍然举步维艰

核心发现

  • 最优通过率:仅62.5%
  • 整体通过率范围:49.0%–62.5%
  • 平均通过率:54.8%

即使是最强的模型(Claude Opus 4.7),也在超过三分之一的任务上失败。这一结果“粉碎了大型语言模型已经可以取代日常shell脚本的普遍信念”。

5.2 与专家基准的相关性:Pearson r=0.20

TerminalWorld最令人警醒的发现之一,是其与现有专家手工基准(如Terminal-Bench)的得分之间仅存在弱相关性——Pearson相关系数仅为0.20

这意味着:在专家手工基准上拿高分的模型,未必能在真实终端场景中表现出色。现有基准并未完全捕捉到真实环境中所需要的能力。

5.3 命令重叠率:仅21.4%

另一个值得关注的发现是:Agent通常通过与人类开发者不同的命令序列来达成正确结果。Agent与人类操作序列的中位数重叠率仅为21.4%

这一低重叠率揭示了两个问题:

  • 工具使用脆弱:Agent倾向于选择恰好能成功的“捷径”,而非忠实复现专家工作流
  • 错误恢复策略有限:当遇到意外情况时,Agent缺乏人类开发者那种灵活的调试和调整能力

5.4 Zero-shot设置下的评估

值得注意的是,TerminalWorld的评测采用Zero-shot(零样本)设置。这意味着Agent在测试时没有见过任何相关训练数据,完全依赖其通用能力来完成终端任务。

这一设置意味着62.5%的通过率是一个下限估计——如果允许迭代提示、工具特定微调或外部记忆,实际表现可能会更高。但即便如此,它也清楚地表明:认为AI助理可以完全自动化日常CLI工作流还为时过早

六、TerminalWorld vs 现有基准

6.1 横向对比

对比维度 TerminalWorld Terminal-Bench SWE-bench
数据来源 8万条真实人类终端录像(asciinema) 专家手工出题 真实GitHub Issue
构建方式 自动逆向工程 人工编写 人工标注
任务数量 1,530个(Verified: 200个) 89个 1,865个(Pro)
覆盖领域 容器编排、CI/CD、云基础设施等18类 终端命令操作 代码生成与修复
持续更新 支持(自动处理新录像) 不支持(静态快照) 有限支持
与真实场景相关性 直接来自真实操作 弱(专家设计) 中等
评估设置 Zero-shot 可配置 可配置

6.2 TerminalWorld的独特定位

TerminalWorld与SWE-bench形成了互补而非替代的关系:

  • SWE-bench:聚焦代码生成、缺陷修复和系统重构能力,以真实GitHub仓库的Issue为素材
  • TerminalWorld:聚焦终端操作场景,测试命令行工具调用、脚本生成和环境配置能力

两者的结合为AI Agent的能力评估提供了更完整的图谱——前者考察“写代码”的能力,后者考察“让代码跑起来”的能力。

6.3 对“基准污染”问题的免疫

TerminalWorld的自动构建机制使其天然免疫了近年来困扰AI评测领域的基准污染(Benchmark Contamination) 问题。此前,Terminal-Bench和SWE-bench Verified均被发现存在数据泄露或作弊漏洞。

TerminalWorld的数据来源于公开的asciinema录像,但评测任务是从录像中自动逆向工程出来的,而非直接使用录像本身作为测试题。这种“二次构建”的方式使得模型很难通过记忆训练数据来“作弊”——它必须真正理解任务意图并执行正确的命令序列。

七、TerminalWorld的行业意义

7.1 重新定义“会干活”的标准

TerminalWorld的核心理念可以概括为一句话:人类怎么干活,AI就该被怎么考

这一理念在机器人领域早已被验证——想让机器学会一项任务,最好的参照系就是人类自己怎么做。TerminalWorld将这一思想首次引入了软件工程领域,用真实世界的人类行为数据构建了AI Agent的“实战考场”。

7.2 揭示“榜单高分≠真实能力”的真相

TerminalWorld最直接的行业冲击在于:它撕开了现有评测体系的一道口子。当专家基准上的高分与真实场景表现仅呈弱相关(r=0.20),整个AI能力评估的根基都需要被重新审视。

这也解释了为什么有些在榜单上风光无限的模型,在实际部署中却频频“翻车”——它们可能只是擅长解答专家设计的“考题”,而非真正理解真实世界的工程问题。

7.3 推动Agent能力评估的范式转变

TerminalWorld的出现标志着AI Agent评估正在经历从 “专家出题”到“真实世界出题” 的范式转变。这一转变的影响将是深远的:

  • 对模型开发者:需要重新思考训练数据的构成和模型的泛化能力
  • 对基准设计者:需要从“人工构造”转向“自动挖掘”真实人类行为
  • 对终端用户:需要以更审慎的态度看待AI Agent的“宣称能力”

正如Anthropic在Claude Code的Artifacts功能中所体现的理念——AI编码工具中竞争激烈的层面正从“代码生成”转向“团队检查和信任agent工作的表面”——TerminalWorld恰恰提供了这种“检查”所需的真实尺度。

八、局限性与未来展望

8.1 当前局限

TerminalWorld虽然具有里程碑意义,但也存在明确的局限性:

  • 任务边界:任务仍受限于引擎能够解析的录像范围,尚未覆盖完全新颖的命令或特权操作
  • Zero-shot限制:当前评测仅考察Zero-shot表现,未涉及迭代提示、工具微调等更丰富的交互模式
  • 评估维度单一:主要关注“任务是否完成”,对执行效率、资源消耗等维度评估有限

8.2 未来方向

TerminalWorld的自动化和可扩展架构为其未来发展留下了充分空间:

  • 持续扩展:随着asciinema平台新录像的不断上传,基准可以自动扩展规模和覆盖范围
  • 多维度评估:未来可引入执行效率、资源消耗、安全性等更多评估维度
  • 交互模式扩展:从Zero-shot向多轮交互、工具调用等更丰富的Agent能力评估延伸

8.3 一个开放的问题

TerminalWorld留下的核心问题是:下一代模型能否最终突破70%的通过率门槛,还是说CLI自动化本身就是一个比我们想象的更难的问题?

无论答案是什么,TerminalWorld已经提供了一个让行业能够诚实面对这一问题的“真实考场”。

常见问题解答(FAQ)

Q1:TerminalWorld是什么?

TerminalWorld是首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准。它从8万余条开发者自愿上传的asciinema录像中自动逆向工程出1,530个可执行评测任务。

Q2:TerminalWorld和Terminal-Bench有什么区别?

Terminal-Bench由专家手工出题,题目不够真实且会过时。TerminalWorld从真实人类操作录像中自动生成任务,更贴近真实开发场景,且能持续更新。两者得分仅呈弱相关(r=0.20),说明专家基准上的高分难以迁移到真实场景。

Q3:当前最先进的AI Agent在TerminalWorld上表现如何?

在TerminalWorld-Verified(200个人工审核任务)上,最优系统通过率仅为62.5%,整体通过率在49.0%至62.5%之间,平均54.8%。即使是表现最好的模型也在超过三分之一的任务上失败。

Q4:TerminalWorld的数据来源是什么?

数据来源于asciinema.org,一个开发者自愿分享终端会话录像的公开平台。研究团队收集了80,870条真实终端操作录像。

Q5:TerminalWorld覆盖哪些类型的任务?

覆盖18个真实工作流类别,包括容器编排、CI/CD流水线、云基础设施管理等,涵盖1,280个独特命令工具,任务从单行命令到超过50步的复杂工作流。

Q6:TerminalWorld的评估结果是“最终答案”吗?

不是。TerminalWorld的评测采用Zero-shot设置,没有使用迭代提示、工具微调或外部记忆。62.5%的通过率是一个下限估计——在更丰富的交互模式下,实际表现可能会更高。

Q7:TerminalWorld会持续更新吗?

会。TerminalWorld的自动化数据引擎使其能够随着asciinema平台新录像的上传而自动扩展和更新。

Q8:TerminalWorld在哪里可以获取?

论文链接:https://arxiv.org/abs/2605.22535
项目主页:https://terminalworld.ai/
数据集:https://huggingface.co/datasets/EuniAI/TerminalWorld
代码仓库:https://github.com/EuniAI/TerminalWorld

以上内容不代表本平台立场,仅供读者参考