TerminalWorld解析：首个真实CLI工作流基准如何重塑AI Agent评估体系

2026-06-24 16:25:20

TerminalWorld

文章摘要

TerminalWorld作为首个完全基于真实人类终端轨迹的CLI工作流基准，从8万余条开发者自愿上传的终端录像中自动逆向工程出1,530个可执行评测任务，覆盖18个真实工作流类别与1,280个独特命令工具。

TerminalWorld作为首个完全基于真实人类终端轨迹的CLI工作流基准，从8万余条开发者自愿上传的终端录像中自动逆向工程出1,530个可执行评测任务，覆盖18个真实工作流类别与1,280个独特命令工具。对前沿大模型与主流Agent框架的全面评测显示，当前最优系统在真实终端任务上的通过率仅为62.5%，且专家手工基准上的高分与真实场景表现仅呈弱相关（Pearson r=0.20）。TerminalWorld的出现标志着AI Agent评估从“专家出题”向“真实世界出题”的根本范式转变。

首个真实CLI工作流基准TerminalWorld

一、TerminalWorld诞生的背景与动因

1.1 被忽视的“终端金矿”

AI Agent正在重塑软件开发。写代码、修bug的能力肉眼可见地往上涨。但软件开发从来不止“写代码”这一件事——装环境、配依赖、部署服务、编排容器、管理云资源、处理安全策略，这些“让软件活起来”的脏活累活，才是真实开发的大头。而它们几乎都发生在同一个地方：终端。

终端是工程师干这一切的主战场。几十年下来，它沉淀了人类最密集、最真实的工程操作轨迹。每一次部署，每一次排障，每一次环境搭建，都是一段被真实意图驱动的操作序列。可这批真实人类的终端操作轨迹，恰恰是Agent测评里被忽视最久的一座金矿。

1.2 现有基准的两大盲区

现有的终端Agent基准（如Terminal-Bench）几乎都在做同一件事：让领域专家坐下来，手工出题。而这条路有两个被集体忽视的盲区：

盲区一：题目不够真实。 专家出题为了拉开难度，难免偏爱刁钻的、对抗性的谜题，可这类题和工程师每天真正面对的工作流之间，隔着一道隐形的墙。榜单上的高分，未必换得来真实世界里的“会干活”。

盲区二：基准会过时。 工具在变，命令在变，工作流也在变，可手工基准从出题那天起就被钉死了，成了一张静态快照。当模型早已用上最新的工具，旧基准却还在拿过时的题考它，自然测不出它真正的能力。

1.3 研究团队与学术背景

TerminalWorld由伦敦大学学院（UCL）、南京大学、腾讯的研究团队合作完成，聚焦于用真实世界的人类行为数据构建更现实、可持续更新的Agent评测体系。论文第一作者为UCL博士生储朝阳，研究方向为面向真实世界软件工程工作流的可靠代码智能体。

论文标题为《TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks》，于2026年5月21日提交至arXiv。项目主页、数据集与代码仓库均已公开。

二、TerminalWorld的核心数据来源

2.1 asciinema：一座一直没人开采的金矿

TerminalWorld的数据来源是asciinema（https://asciinema.org/），一个开发者自愿分享终端会话录像的公开平台。每一条录像，都是某个真实的开发者，在某个真实的时刻，干完了一件真实的事——没有出题人，没有人为设计的难度，只有最原始的人类操作。

asciinema提供的不是抽象的日志，而是带有时间戳的完整操作序列。研究团队可以精确追踪人类开发者在每个步骤中输入了什么命令、看到了什么输出、如何根据反馈调整下一步操作。这种“过程数据”而非“结果数据”，是TerminalWorld区别于所有此前基准的核心资产。

2.2 数据规模：80,870条真实录像

研究团队从asciinema平台收集了80,870条真实终端操作录像。这一规模足以覆盖从日常短操作到超过50步的复杂工作流的完整光谱。

2.3 原始数据的真实性与多样性

这些录像的独特价值在于其**“在野”（in-the-wild）** 属性：

真实性：每一条命令都是真实开发者在真实场景中为解决真实问题而敲下的，不存在任何人为设计的痕迹
多样性：涵盖从单行命令到多步部署流水线的完整难度谱系
时效性：asciinema持续接收新录像，使基准可以随工具和工作流的演变而持续更新

三、TerminalWorld的自动构建引擎

3.1 从录像到任务的“逆向工程”

TerminalWorld的核心创新在于其自动逆向工程能力。研究团队开发了一套可扩展的数据引擎，能够从原始的人类终端录像中自动提取出可执行、可验证的评测任务。

这一过程的关键突破在于：传统方法需要人工将录像“翻译”成评测任务，而TerminalWorld的数据引擎能够自动完成这一转换——它识别录像中的操作意图、提取关键步骤、构建可复现的测试环境、验证结果的正确性。

3.2 Agent Skills：核心合成原语

Terminal-World的自动化管道以Agent Skills（智能体技能） 作为核心合成原语。Agent Skills同时编码了三类信息：

做什么（what to accomplish）：任务的目标描述
何时应用（when to apply）：前置条件与环境状态
如何执行（how to execute）：具体的操作步骤

通过将技能组合为技能团队（skill teams） 和技能图谱（skill graphs） ，Terminal-World实现了多角色与跨领域任务的自动合成。

3.3 持续更新的能力

Terminal-World的数据引擎使其具备可持续更新的能力。随着asciinema平台上新录像的不断上传，引擎可以自动处理新数据、生成新任务，使基准始终保持与开发者实践同步。这解决了手工基准“从出题那天起就被钉死”的根本缺陷。

四、TerminalWorld的基准规模与覆盖

4.1 核心数据一览

经过自动逆向工程处理，Terminal-World的数据引擎产出了一套完整的基准测试集：

指标	数据
处理原始录像	80,870条
生成验证任务	1,530个
真实工作流类别	18个
独特命令工具	1,280个
任务步数范围	单行命令至50+步
人工审核子集（Verified）	200个代表性任务

4.2 18个真实工作流类别

TerminalWorld覆盖的18个真实工作流类别中，特别强调了此前基准中严重缺失的领域：

容器编排（Container Orchestration）
CI/CD流水线（CI/CD Pipelines）
云基础设施管理（Cloud Infrastructure Management）

这些类别恰恰是当今软件开发中“让软件活起来”的核心环节，也是终端Agent最应该具备的能力。

4.3 Verified子集：200个人工审核任务

从1,530个验证任务中，研究团队精选了200个代表性任务构成TerminalWorld-Verified子集，每个任务均经过人工审核。这一子集被用作对前沿模型与Agent进行基准测试的严格试验场。

五、TerminalWorld评测结果

5.1 整体表现：最优通过率仅62.5%

研究团队在TerminalWorld-Verified上对8个前沿大模型和6个Agent框架进行了全面评测。结果显示，当前系统在处理真实终端工作流时仍然举步维艰。

核心发现：

最优通过率：仅62.5%
整体通过率范围：49.0%–62.5%
平均通过率：54.8%

即使是最强的模型（Claude Opus 4.7），也在超过三分之一的任务上失败。这一结果“粉碎了大型语言模型已经可以取代日常shell脚本的普遍信念”。

5.2 与专家基准的相关性：Pearson r=0.20

TerminalWorld最令人警醒的发现之一，是其与现有专家手工基准（如Terminal-Bench）的得分之间仅存在弱相关性——Pearson相关系数仅为0.20。

这意味着：在专家手工基准上拿高分的模型，未必能在真实终端场景中表现出色。现有基准并未完全捕捉到真实环境中所需要的能力。

5.3 命令重叠率：仅21.4%

另一个值得关注的发现是：Agent通常通过与人类开发者不同的命令序列来达成正确结果。Agent与人类操作序列的中位数重叠率仅为21.4%。

这一低重叠率揭示了两个问题：

工具使用脆弱：Agent倾向于选择恰好能成功的“捷径”，而非忠实复现专家工作流
错误恢复策略有限：当遇到意外情况时，Agent缺乏人类开发者那种灵活的调试和调整能力

5.4 Zero-shot设置下的评估

值得注意的是，TerminalWorld的评测采用Zero-shot（零样本）设置。这意味着Agent在测试时没有见过任何相关训练数据，完全依赖其通用能力来完成终端任务。

这一设置意味着62.5%的通过率是一个下限估计——如果允许迭代提示、工具特定微调或外部记忆，实际表现可能会更高。但即便如此，它也清楚地表明：认为AI助理可以完全自动化日常CLI工作流还为时过早。

六、TerminalWorld vs 现有基准

6.1 横向对比

对比维度	TerminalWorld	Terminal-Bench	SWE-bench
数据来源	8万条真实人类终端录像（asciinema）	专家手工出题	真实GitHub Issue
构建方式	自动逆向工程	人工编写	人工标注
任务数量	1,530个（Verified: 200个）	89个	1,865个（Pro）
覆盖领域	容器编排、CI/CD、云基础设施等18类	终端命令操作	代码生成与修复
持续更新	支持（自动处理新录像）	不支持（静态快照）	有限支持
与真实场景相关性	直接来自真实操作	弱（专家设计）	中等
评估设置	Zero-shot	可配置	可配置

6.2 TerminalWorld的独特定位

TerminalWorld与SWE-bench形成了互补而非替代的关系：

SWE-bench：聚焦代码生成、缺陷修复和系统重构能力，以真实GitHub仓库的Issue为素材
TerminalWorld：聚焦终端操作场景，测试命令行工具调用、脚本生成和环境配置能力

两者的结合为AI Agent的能力评估提供了更完整的图谱——前者考察“写代码”的能力，后者考察“让代码跑起来”的能力。

6.3 对“基准污染”问题的免疫

TerminalWorld的自动构建机制使其天然免疫了近年来困扰AI评测领域的基准污染（Benchmark Contamination） 问题。此前，Terminal-Bench和SWE-bench Verified均被发现存在数据泄露或作弊漏洞。

TerminalWorld的数据来源于公开的asciinema录像，但评测任务是从录像中自动逆向工程出来的，而非直接使用录像本身作为测试题。这种“二次构建”的方式使得模型很难通过记忆训练数据来“作弊”——它必须真正理解任务意图并执行正确的命令序列。

七、TerminalWorld的行业意义

7.1 重新定义“会干活”的标准

TerminalWorld的核心理念可以概括为一句话：人类怎么干活，AI就该被怎么考。

这一理念在机器人领域早已被验证——想让机器学会一项任务，最好的参照系就是人类自己怎么做。TerminalWorld将这一思想首次引入了软件工程领域，用真实世界的人类行为数据构建了AI Agent的“实战考场”。

7.2 揭示“榜单高分≠真实能力”的真相

TerminalWorld最直接的行业冲击在于：它撕开了现有评测体系的一道口子。当专家基准上的高分与真实场景表现仅呈弱相关（r=0.20），整个AI能力评估的根基都需要被重新审视。

这也解释了为什么有些在榜单上风光无限的模型，在实际部署中却频频“翻车”——它们可能只是擅长解答专家设计的“考题”，而非真正理解真实世界的工程问题。

7.3 推动Agent能力评估的范式转变

TerminalWorld的出现标志着AI Agent评估正在经历从 “专家出题”到“真实世界出题” 的范式转变。这一转变的影响将是深远的：

对模型开发者：需要重新思考训练数据的构成和模型的泛化能力
对基准设计者：需要从“人工构造”转向“自动挖掘”真实人类行为
对终端用户：需要以更审慎的态度看待AI Agent的“宣称能力”

正如Anthropic在Claude Code的Artifacts功能中所体现的理念——AI编码工具中竞争激烈的层面正从“代码生成”转向“团队检查和信任agent工作的表面”——TerminalWorld恰恰提供了这种“检查”所需的真实尺度。

八、局限性与未来展望

8.1 当前局限

TerminalWorld虽然具有里程碑意义，但也存在明确的局限性：

任务边界：任务仍受限于引擎能够解析的录像范围，尚未覆盖完全新颖的命令或特权操作
Zero-shot限制：当前评测仅考察Zero-shot表现，未涉及迭代提示、工具微调等更丰富的交互模式
评估维度单一：主要关注“任务是否完成”，对执行效率、资源消耗等维度评估有限

8.2 未来方向

TerminalWorld的自动化和可扩展架构为其未来发展留下了充分空间：

持续扩展：随着asciinema平台新录像的不断上传，基准可以自动扩展规模和覆盖范围
多维度评估：未来可引入执行效率、资源消耗、安全性等更多评估维度
交互模式扩展：从Zero-shot向多轮交互、工具调用等更丰富的Agent能力评估延伸

8.3 一个开放的问题

TerminalWorld留下的核心问题是：下一代模型能否最终突破70%的通过率门槛，还是说CLI自动化本身就是一个比我们想象的更难的问题？

无论答案是什么，TerminalWorld已经提供了一个让行业能够诚实面对这一问题的“真实考场”。

常见问题解答（FAQ）

Q1：TerminalWorld是什么？

TerminalWorld是首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准。它从8万余条开发者自愿上传的asciinema录像中自动逆向工程出1,530个可执行评测任务。

Q2：TerminalWorld和Terminal-Bench有什么区别？

Terminal-Bench由专家手工出题，题目不够真实且会过时。TerminalWorld从真实人类操作录像中自动生成任务，更贴近真实开发场景，且能持续更新。两者得分仅呈弱相关（r=0.20），说明专家基准上的高分难以迁移到真实场景。

Q3：当前最先进的AI Agent在TerminalWorld上表现如何？

在TerminalWorld-Verified（200个人工审核任务）上，最优系统通过率仅为62.5%，整体通过率在49.0%至62.5%之间，平均54.8%。即使是表现最好的模型也在超过三分之一的任务上失败。

Q4：TerminalWorld的数据来源是什么？

数据来源于asciinema.org，一个开发者自愿分享终端会话录像的公开平台。研究团队收集了80,870条真实终端操作录像。

Q5：TerminalWorld覆盖哪些类型的任务？

覆盖18个真实工作流类别，包括容器编排、CI/CD流水线、云基础设施管理等，涵盖1,280个独特命令工具，任务从单行命令到超过50步的复杂工作流。

Q6：TerminalWorld的评估结果是“最终答案”吗？

不是。TerminalWorld的评测采用Zero-shot设置，没有使用迭代提示、工具微调或外部记忆。62.5%的通过率是一个下限估计——在更丰富的交互模式下，实际表现可能会更高。

Q7：TerminalWorld会持续更新吗？

会。TerminalWorld的自动化数据引擎使其能够随着asciinema平台新录像的上传而自动扩展和更新。

Q8：TerminalWorld在哪里可以获取？

论文链接：https://arxiv.org/abs/2605.22535
项目主页：https://terminalworld.ai/
数据集：https://huggingface.co/datasets/EuniAI/TerminalWorld
代码仓库：https://github.com/EuniAI/TerminalWorld

以上内容不代表本平台立场，仅供读者参考