Loop Engineering完整指南:AI自主循环系统设计与应用

Loop Engineering(循环工程)是一种让AI智能体自主迭代完成任务的系统化方法,本文系统讲解其核心理念、五大构成模块与多领域实践应用。

第一 Loop Engineering的核心定义与诞生背景
Loop Engineering是2026年6月由Google工程总监Addy Osmani正式命名并推广的AI工程方法论。顾名思义,它围绕“循环”(Loop)这一核心概念展开——所谓循环,就是一个递归目标:你定义一个目的,人工智能反复迭代直到完成。
1.1 一句话理解Loop Engineering
用最直白的话说:Loop Engineering就是你不再亲自一句句给AI下指令,而是设计一套系统,让它代替你不断地给AI下指令,直到任务真正完成。过去两年里,人与编码智能体协作的方式是:你写一段提示词,读它的返回结果,再写下一段提示词,AI全程是你手里的工具,每次对话都需要你亲自控制。而Loop Engineering则完全改变了这种模式:你构建一个能够自动发现任务、分配任务、检查结果、记录进度、决定下一步的小系统,让这个系统去触发智能体,而不是你亲自去做。
从另一个角度理解:传统的面向提示词的编程(Prompt Programming)就好比你亲自开车,每个路口都要自己打方向盘;而Loop Engineering则是你作为工程师设计和制造一辆自动驾驶汽车,设定好目的地和到达判断标准,然后让车自己开。Loop Engineering的核心在于你不必再向编码智能体手动输入提示词,而是设计能够持续提示、调度和约束智能体的循环系统。
1.2 四个AI工程范式的演进脉络
要真正理解Loop Engineering,有必要回顾AI工程在过去几年的演化路径。表面上看是不同概念的更替,底层却贯穿着一条清晰的线索:AI能连续自主工作的时间长度在不断增长。
| 时间节点 | 核心范式 | 主要特点 | AI能力边界 | 开发者角色 |
|---|---|---|---|---|
| 2023年 | Prompt Engineering(提示词工程) | 一问一答式交互,靠提示词质量决定输出 | 单次回答 | 提示词操作员 |
| 2024年 | Context Engineering(上下文工程) | AI开始使用工具,需管理信息输入和记忆 | 数十步连续操作 | 信息管家 |
| 2025年 | Harness Engineering(驾驭工程) | 构建AI运行环境,配置工具权限和护栏 | 数小时连续工作 | 系统搭建者 |
| 2026年 | Loop Engineering(循环工程) | 系统自动调度智能体,自主迭代完成目标 | 数天连续自主运行 | 规则设计者 |
2023年,Prompt Engineering是主流——你问AI一句、它答一句,产出质量全凭提示词的好坏,一门心思研究怎么把问题问得更精准。到了2024年,Context Engineering走上前台——AI开始能用工具查资料、调API、读文件,但执行到第20步时会把第一步的信息忘干净,需要你像秘书一样管理信息输入和提醒。
2025年是Harness Engineering兴起的一年。AI能连续工作数小时,光管信息输入已不够用,你必须为它配备完整的工作环境:工位在哪、工具有哪些、权限开到多大、出错谁检查、检查不过怎么纠正。这套系统就叫Harness,搭建它的工程就是Harness Engineering。
2026年6月,Claude Code创始人Boris Cherny在开发者大会上说了一段话,迅速在技术社区传开:“我已经不再给Claude写提示词了。我写好一个个运行着的循环,让循环去提示Claude并让它自己搞清楚该做什么。我的工作就是写循环。”这段演讲片段上传到社交平台后,不到24小时获得近70万次播放。紧接着,Addy Osmani正式为这个概念命名——Loop Engineering。
1.3 从确定性到非确定性的范式跨越
软件工程泰斗Martin Fowler在2025年提出了一个影响深远的论断:编程的本质正在从确定性逻辑构建转向不确定性系统设计。传统编程是确定性的——同样的输入必然产生同样的输出。但大语言模型是非确定性的——同样的提示词,两次运行的结果可能完全不同。这意味着传统的传统瀑布式开发和线性交付流程在面对AI时不再有效。
Martin Fowler用造桥做了一个生动的类比:“我们需要学会像造桥一样写代码。造桥的结构工程师在工作中有一个核心概念叫容差。木材、钢铁、混凝土的物理性能虽然大致已知,但不能按照理论最优值去设计,必须留出足够的余量,为最坏的情况做准备。”Loop Engineering正是在这种不确定性背景下应运而生的方法论——不试图消除AI的不确定性,而是通过循环机制来管理和约束它。
第二 Loop Engineering的思想渊源
2.1 ReAct模式的延伸
现代智能体循环大多可以追溯到ReAct(Reason + Act,推理加行动)研究范式——让模型“先思考、再行动、看结果、再思考、再行动”,把推理步骤和行动步骤交织起来。ReAct的核心闭环可以概括为:收集上下文→采取行动→验证结果→重复。从这层意义上说,Loop Engineering可以看作ReAct模式在工程实践层面的系统化升级——从单次推理行动的循环,升级为可规模化部署的工程体系。
2.2 “澳洲放羊大叔”的启示
2025年底,澳大利亚开发者Geoffrey Huntley在“铲羊粪的间隙”,写出了仅有5行代码的Bash脚本:
while :; do cat PROMPT.md | claude-code; done
这段代码的逻辑出奇简单:启动→读取PROMPT.md→交给Claude Code执行→重复。Huntley惊喜地发现,当AI看到自己上一轮留下的代码、测试结果和错误日志时,它会自动修正。哪怕第一次写错,反复几轮后最终能完成任务。他把这个循环命名为“Ralph Wiggum”——《辛普森一家》中那个天真但异常执着的小学生角色,其经典台词“I‘m in danger!”恰好契合了在困境中持续迭代、永不放弃的精神。
这件事的意义远超代码本身。它证明了一个朴素的真理:循环本身就是一种强大的工程策略。不需要复杂的编排框架,只需要一个简单的无限循环加上持续积累的上下文,AI就能自主修正和推进任务。现在看来,那5行Bash脚本就是Loop Engineering最早的雏形。
2.3 控制论与反馈循环的理论根基
控制论(Cybernetics)自1948年Norbert Wiener创立以来,就以反馈循环作为其核心概念。“反馈循环是组装系统的基本元件”,正如系统动力学奠基人Jay Forrester所言。控制论将反馈分为两类:负反馈(Negative Feedback)通过调节使系统趋向目标状态,正反馈(Positive Feedback)则使系统偏离初始状态而产生增长或衰退。这两种反馈机制都直接映射到Loop Engineering的设计中——负反馈对应评估与修正机制,使AI的生成结果不断趋近预设目标;正反馈则对应目标拆分与逐步推进,使任务范围逐步扩展直至完成。
在工程学领域,反馈循环是系统设计的基本构件。从经典的控制系统理论到现代的多循环反馈系统设计,工程学始终强调循环结构在应对不确定性和复杂系统时的核心价值。
第三 Loop Engineering的五大构成模块
一个完整的Loop需要五样东西,外加一处记忆存储。Addy Osmani将这五个构件系统化地总结出来,可以当作设计和评估任何循环系统的检查清单。值得注意的是,这五个模块在不同AI编程工具中的名称各不相同,但其结构形态高度一致——无论在Claude Code还是OpenAI Codex中,五个模块都能找到对应的实现。
3.1 自动化触发(Automations)
核心功能:按设定计划自动启动智能体,独立完成任务发现和初步分类。
自动化模块是一个循环的起搏器。它按设定计划(cron)自动触发智能体,发现待处理任务并完成初步分类,而无需人工干预。一个规模化的Loop可能同时运行着数以百计的自动化任务,覆盖从监控代码变更到自动测试的全流程。在Claude Code中,用户可以通过cron create命令创建新的定时循环;在Codex中,自动化功能则集中在专门的Automations面板中。
3.2 工作空间隔离(Worktrees)
核心功能:让并行的多个智能体在独立的工作空间中运行,互不干扰。
当多个智能体同时运行时,它们必须拥有独立的工作空间,否则会产生文件冲突和状态干扰。Worktrees模块正是解决这一问题的关键——每个智能体在其专属的工作树中运行,互不踩踏。这在并行任务处理中尤为重要:一个智能体在修改核心代码的同时,另一个智能体可以独立进行测试或文档更新,两者互不干扰。
3.3 技能与知识记录(Skills)
核心功能:将项目知识结构化地记录下来,避免智能体靠猜。
Skills模块负责将项目知识以结构化的方式记录下来——编码规范、API约定、项目架构、业务规则等。没有技能记录,智能体只能靠“猜”,而猜错的概率相当可观。通过技能模块,智能体在进入任务之前就获取了足够的环境认知,执行质量自然大幅提升。
3.4 插件与连接器(Plugins & Connectors)
核心功能:将智能体接入现有的工具生态。
孤立于工具生态之外再强大的智能体也寸步难行。插件与连接器模块负责将智能体接入团队日常使用的工具——代码仓库、CI/CD管道、项目管理平台、通信工具等。正是通过这一模块,智能体才能真正成为团队中的一员,而不是一个孤立的“AI进程”。
3.5 子智能体(Sub-agents)
核心功能:一个负责出方案,另一个负责检查,形成内部制衡。
子智能体模块实现了“方案与检查”的解耦。一个智能体负责产生方案和执行,另一个智能体则专门负责检查和验证。这种结构形成了系统内部的制衡机制,有效防止了单一智能体可能出现的“自我感觉良好”幻觉问题。在Harness Engineering的语境下,这被称为“把解决问题和评估分成两个独立的智能体”。
3.6 记忆存储(Memory)
核心功能:将已完成事项和待办事项存储于对话会话之外。
第六个要素——记忆,是一个看似简单实则至关重要的构件。它可以是Markdown文件、Linear任务板,或者任何独立于单次对话会话的存储位置。为什么需要对话之外的记忆?因为大模型在每次运行之间会遗忘一切——模型会忘记,但仓库不会。因此记忆必须存储在磁盘上,而不是上下文窗口中。这是所有长期运行的智能体都依赖的底层技巧:智能体忘记了没关系,记忆库记得就行。
第四 主流AI编程工具的Loop实现横向对比
| 对比维度 | Claude Code (Anthropic) | OpenAI Codex | xAI Grok |
|---|---|---|---|
| 自动化触发 | cron create / cron list / cron delete 完整命令体系 | Automations面板,含定期发现和分类功能 | 具备调度能力,细节未全部公开 |
| 工作空间隔离 | 完整支持Worktrees | 支持并行工作流 | 支持 |
| 技能记录 | AGENT.md 配置文件 | Skills模块 | 具备知识记录机制 |
| 插件生态 | 插件连接器丰富 | 开放工具接入 | 逐步扩展中 |
| 子智能体 | 支持并行独立核查 | 支持多智能体协作 | 支持 |
| 循环命令原生性 | CLI原生支持 | 当前无原生loop CLI命令 | 具备对应原语 |
| 主要局限 | Token消耗较高 | 自动化能力存在但命令不完整 | 成熟度略低 |
在设计一个Loop时,以上工具的差异反而不重要。正如Addy Osmani所观察到的:“一旦你意识到五者的结构是相同的,你就不会再纠结用哪个工具了,你只需要设计一个在任何工具里都能跑起来的Loop。”
第五 Loop Engineering实战入门
5.1 最快上手的方法:从Bash循环开始
理解Loop Engineering最快的方法不是阅读长篇文档,而是动手写一个最简单的循环。从经典的“Ralph Wiggum”循环开始——那5行Bash脚本的精髓在今天依然适用:
#!/bin/bash
while :; do
# 1. 定义目标
cat CURRENT_GOAL.md > PROMPT_CONTEXT.md
# 2. 调用智能体
claude-code < PROMPT_CONTEXT.md > OUTPUT.md
# 3. 检查结果
if grep -q "TASK_COMPLETE" OUTPUT.md; then
break
fi
# 4. 更新上下文继续下一轮
cat OUTPUT.md >> PROMPT_CONTEXT.md
done
这个朴素的循环包含了Loop Engineering的四个基本元素:明确的目标(CURRENT_GOAL.md)、智能体调用(claude-code)、结果评估(检查“TASK_COMPLETE”标记)、上下文累积(将输出追加到下一轮的上下文中)。只需把这四个元素配齐,就拥有了一个能自主运行的循环系统。
5.2 一个完整的循环闭环
任何形式的循环系统,无论规模大小,都必须包含四个基本步骤,才能形成一个完整的闭环:
第一步:收集上下文(Gather Context) 。循环开始前,系统必须收集足够的背景信息——当前任务状态、已完成工作的记录、等待处理的问题列表、已有的产出结果。信息越完整,智能体执行的质量就越高。
第二步:采取行动(Take Action) 。基于收集到的上下文,智能体执行当前回合的具体任务。这可能是生成代码、修复Bug、撰写文档或运行测试。
第三步:验证结果(Verify Work) 。行动完成后,系统对产出进行验证——代码是否能编译通过、测试是否全部通过、输出是否符合目标定义。验证的结果决定了循环是否继续。
第四步:重复循环(Repeat) 。如果验证未通过,系统收集新的上下文(包含上一轮的结果和验证反馈),然后重新进入下一轮行动。只要“验证”没通过,循环就继续;一旦目标达成或触发停止条件,循环正式结束。
5.3 Harness与Loop的关系
理解Harness Engineering是理解Loop Engineering的前置条件。Harness(直译为马具)是为单个智能体搭建的运行环境——包括提示词模板、工具权限范围、护栏机制、记忆管理等。如果说Harness是智能体活动的工作室,那么Loop Engineering就是工作室之外的外循环——一个跑在计时器上、能自己生成子助手、能自我驱动的Harness。
两者的关系可以这样理解:Harness Engineering回答的是“智能体在哪干活”的问题——工位在哪、工具有哪些、权限开到多大。Loop Engineering回答的是“谁让智能体干活”的问题——什么时候启动、启动后干什么、干完谁来检查、检查不过怎么办、什么时候收工。Harness为单个智能体提供运行环境,Loop则负责调度和管理这些智能体运行的节奏。
5.4 应用案例:从需求到交付的完整闭环
一个完整的Loop可以从需求分析阶段一直运行到代码发布。典型的工作流如下:
- 需求输入:用户将需求描述作为初始上下文输入系统
- 任务拆解:主智能体将需求拆解为可执行的子任务清单
- 并行执行:子智能体同时在独立工作空间中处理各子任务
- 交叉验证:专门负责验证的智能体逐一核查输出
- 结果反馈:验证结果回流到主智能体的上下文中,用于调整后续行动
- 递归直到完成:重复以上步骤,直到所有子任务完成,整体目标达成
根据实战项目的数据,经过收敛反馈闭环驱动软件从需求到交付的完整流程后,相较于传统线性交付流程,迭代周期可缩短约40%-60%。
第六 实践中的挑战与应对策略
6.1 Token成本问题
Token成本是Loop Engineering在规模化实践中最被关注的限制因素。用户使用模式因人而异,成本差异可以非常大。一个长时间运行的循环可能消耗远超预期的Token量,尤其是当智能体产生冗余输出或在无效方向上反复尝试时。
应对策略包括:限制上下文长度,每次只向智能体提供达成当前子目标所需的最必要信息;对输出进行冗余控制,通过提示词限制输出长度和内容类型;选择合适的模型和调用策略,简单任务调用低成本模型,复杂任务再调用高级模型;建立Token预算监控机制,当消耗超出阈值时触发报警或中断循环。
6.2 上下文膨胀问题
随着循环轮次的增加,上下文会不可控地膨胀。AI执行到第20步时可能已经忘了第一步说过的内容,但把所有历史记录都保留又会导致上下文过长、处理效率下降、Token消耗激增的三重问题。
解决方案是建立上下文管理机制(压缩、摘要、分页)。每次循环轮次结束后,系统对所积累的上下文进行压缩或提炼摘要,只将最核心的信息递入下一轮。类似人类的笔记方法——把长篇对话整理成要点,而不是逐字逐句地背诵全文。压缩策略的运用直接影响系统的成本和性能表现。
6.3 可观测性与调试困难
当十几个甚至几十个智能体同时在循环中运行时,追踪系统状态变得异常困难。谁在执行什么任务、完成了多少、卡在了哪里、谁在等待谁的输出——这些信息的缺失会使调试几乎不可能。
应对策略包括:建立完整的日志系统,记录每一次循环轮次的关键信息(智能体身份、目标描述、执行时长、输出摘要、验证结果);设计状态可视化仪表板,让操作者能一目了然地看到所有循环的运行状态;为关键路径设置人工审批点,在需要方向性判断的节点暂缓执行,等待人工确认后再继续。
6.4 安全与合规风险
循环自动化可能带来的风险包括数据泄露、未授权操作和模型幻觉放大。当一个智能体获得了代码仓库写入权限,而另一个智能体独立运行时产生了错误的代码修改,风险就会真实地传导到生产环境中。
治理措施包括:访问控制,严格定义不同智能体的权限边界——读仓库的智能体不能写,运行测试的智能体不能部署;审计链路,每一次智能体操作都应留下可追溯的记录,包括操作时间、操作对象、操作内容和操作结果;回退路径,对关键操作(如代码提交、部署发布)保留人工回滚机制;设置护栏,在循环系统的关键节点嵌入安全审核规则,一旦检测到异常模式(如大量文件删除、超出权限边界的操作),立即暂停整个循环。
6.5 “人在循环中”的定位问题
在Loop Engineering中,Human-in-the-loop不是人工审核的另一种说法,也不是对用户的频繁打扰。关键角色被明略科技称为 “品鉴者” (Taster)——不参与智能体的具体执行过程,而是在关键节点做方向性判断:循环在正轨上就放行,偏了就纠偏,达到标准就叫停。
这种设计把人的精力集中在两件事上:一是确认“输出的东西好不好”,二是判断“接下来的方向对不对”。人只需要在关键的决策点上花几秒钟做判断,剩下的具体执行工作全交给循环系统,从而将人的价值聚焦在不可替代的方向性判断和创意决策上。
第七 Loop Engineering的未来发展趋势
7.1 从单智能体走向多智能体协作网络
目前行业讨论的Loop Engineering大多停留在单个智能体层面——更聪明的智能体配上更精巧的循环设计,在沙箱里反复迭代。这解决了“一个人怎么把活干得更快”的问题。然而现实世界的任务往往不是一个智能体能独立闭环的:一个产品需求的落地,需要产品经理定义目标、设计师输出方案、工程师实现代码、测试团队验证质量、运营反馈数据。这不是一个循环,是循环的嵌套与协作。
未来的方向是将循环工程推向多智能体协作网络。在组织层面解决智能体之间的上下文交换、产出传递和相互触发问题,形成更强大的群体智能。目前已有先例——某科技企业有超过2900个AI智能体在日常业务中协同运作,实现跨智能体的上下文流转和产出传递。
7.2 抽象化与标准化演进
从脚本编写到产品内置的演进路径已经显现。一年前实现一个循环还需要写一堆Bash脚本,并且要永远维护这堆脚本。如今这些模块已经直接内置在Claude Code和Codex等产品中了。
随着行业迅速围绕这一架构形成标准,循环设计正变得日益工具无关(tool-agnostic)。未来的发展方向包括:状态管理抽象,将循环状态的生命周期管理标准化;调度策略模板,为常见应用场景提供开箱即用的调度方案;重试与幂等性保证,确保循环系统在异常情况下仍然可靠;语言级支持,将循环结构抽象为编程语言的顶层原生概念。
7.3 从Coding Agent走向更广泛的AI应用
虽然Loop Engineering最初诞生于AI编程场景,但其核心思想——设计循环系统而非手动驱动智能体——有潜力扩展到更广泛的AI应用领域。从AI驱动的游戏开发到自动化测试验证,从内容生成管道到数据分析流程,只要涉及多轮迭代的AI调用,Loop Engineering的方法论都可适用。
正如Martin Fowler所预测的,“把软件工程中的‘代码即逻辑’替换为‘代码即约束和规约’,可能是我们这一代人面临的最重要的范式转变。”Loop Engineering正是在这一转变中扮演关键角色的方法论。
常见问题解答(FAQ)
Q1:Loop Engineering和Prompt Engineering有什么本质区别?
Loop Engineering优化的是自动生成并验证指令的整套系统,你的角色是系统架构师,智能体是可长期运行的进程。而Prompt Engineering优化的是单条手敲指令,你的角色是操作员,智能体是一次性工具。简而言之:Prompt Engineering优化“输入”,Loop Engineering优化“围绕模型的整个流程”。
Q2:实现一个Loop需要多少行代码?
最早的原型只用5行Bash脚本就能跑起来,但那是概念验证。实际生产环境中运行的循环系统通常需要数百到数千行的实现,涵盖目标管理、上下文压缩、验证机制、停止条件和日志监控等完整模块。不过,随着Codex和Claude Code等工具将这些模块内置化,普通用户已无需从零写起。
Q3:Token成本会不会成为规模化应用的障碍?
这是当前Loop Engineering最被关注的问题。Token成本确实会随循环轮次增加而显著增长,但可以通过上下文压缩、输出冗余控制和模型分层调用等策略有效控制。建议从短周期、低成本的场景开始验证,逐步扩大到更复杂的任务。在小规模试点中验证有效后,再评估规模化部署的收益与成本。
4:如何评估一个Loop是否有效?
有效的Loop必须具备四个特征:每一轮产生可观察的反馈、反馈能闭环到系统设计中影响下一轮行为、系统向预期目标持续收敛、停止条件能够被可靠检测。一个好的循环应该不是机械地重复,而是每一次轮次都具备工程意义。
Q5:普通人需要学习Loop Engineering吗?
如果你是日常使用AI工具完成任务的普通用户,不需要专门学习。Loop Engineering面向的是构建系统的人——那些需要让AI大规模、长时间、自动化运行的内容交付者和技术开发者。这类用户会发现Loop Engineering是他们工具箱中不可或缺的工程方法。如果你是AI工具的使用者而非构建者,继续用好Prompt Engineering即可,不必急于升级。
Q6:Loop Engineering会完全取代Prompt Engineering吗?
不会。二者的关系不是替代,而是层次提升。Prompt Engineering仍然是每次具体调用的基础——Loop系统在内部调用AI时仍然需要高质量的提示词。Loop Engineering不是在无提示词的条件下运转,而是在更高层面上设计“如何、何时、为何”发提示词的系统。Boris Cherny也坦言:活儿没变简单,只是杠杆点向上移了。两种能力将长期并存,面向不同层次的用户和任务。
Q7:在哪里可以看到Loop Engineering的实际效果?
Anthropic的Claude Code已经完整内化了Loop Engineering的五构件,OpenAI Codex也同样具备。YouTube和开发者社区上有大量视频演示,展示开发者如何用循环系统实现从需求到代码交付的全自动流程。此外,开源社区也已出现基于Loop Engineering原则的自主编程智能体实现,可供学习参考。



