文章摘要
作者推进的fab项目是用于梳理智能体研究成果的界面工具。介绍了大规模并行研究面临注意力瓶颈、智能体谄媚等问题及缓解措施,阐述fab运作逻辑、后续计划、定位边界,还探讨相关延伸问题,最后说明分享文章的原因,希望获反馈、明确边界等。

过去一个多月,我一直在推进一个名为fab的项目,它本质上是一套界面工具,用于帮助人类研究者梳理大量并行运行的智能体产出的研究成果。虽然我还没有完成这个项目,目前正卡在寻找这类工具的核心痛点上,但我依然认为有必要分享一下它试图解决的问题,以及初步的设计思路。

在接下来的讨论中,我将假设这个工具被用于自动化对齐研究。这并不是因为我认为它是万能的解决方案,而是因为当前大量的实证对齐研究工作都可以实现自动化——事实上其中一部分已经被自动化了,只是还没有覆盖到更开放的研究场景。如果我们能通过自动化将更多工作前置,这本身就是一种进步。我刻意假设人类始终是最终的决策者,想要探索通过增强人类判断能够走多远。

大规模并行研究的现实挑战

想象一下不远的未来,你可以一键启动数十个智能体并行开展研究。你只需要大致描述自己关注的研究问题,它们就能完成所有前期工作:将问题具象化、调研已有相关研究、开展小型实验以获得机制层面的理解、推进更大规模的实验(比如训练模型或开展白盒可解释性研究)、分析实验结果,并将新发现置于整体研究背景中审视。理想情况下,这些智能体都会采用略有差异的研究路径,尝试从不同角度切入你提出的问题。当它们全部完成后,你需要审阅数十份研究报告,最终目标是通过新的证据更新自己对该问题的认知。

我认为这个过程实际上非常困难,原因在于我们的研究方式和当前智能体的故障模式之间的相互作用。

注意力瓶颈是最大的问题。每个领域的人类研究者数量都是有限的。以对齐领域为例,整体可能只有数千名研究者,其中仅有30位左右产出高效。我们当然不希望这些顶尖研究者去审阅大语言模型生成的冗余内容。我认为这是整个系统的约束瓶颈,因为它决定了你可以并行开展多少工作。换句话说,你现在完全可以启动100个研究智能体(当然可能受限于token消耗),但你根本无法理清100份研究报告的内容。

实际上,在这100个研究智能体中,很多都不会产出有价值的内容。根据我的经验,最常见的原因有三个:

  • 谄媚倾向:智能体能够写出流畅精致的文字,但并未深入实际的研究工作。最终你得到一份看似完整的报告,却没有澄清任何问题,甚至还会打消进一步研究的积极性。最糟糕的情况是,你会被说服相信那些站不住脚的“发现”。虽然最极端的谄媚问题已经得到改善,但近期我还是遇到过几次,宁愿看到直白的附和也不愿这种隐晦的情况。
  • 奖励破解:这是经典的“看起来不错但实际未必有效”的问题。和谄媚倾向一样,过去一年这类问题已经有了很大改善,但依然存在,只是更难被发现。如果想要完全脱离人工监督,就需要为智能体建立验证机制,否则它们必然会进行奖励破解。这也是为什么大多数智能体应用还是需要人工在环监督:需要不断检查确保智能体没有偏离正轨。智能体在有明确目标的时候能力很强,你的工作是帮它们找准方向。
  • 模式崩塌:大多数智能体都会采用非常相似的研究路径,哪怕它们用不同的名称包装。如果它们调研文献,最终都会聚焦在相同的3-5篇论文上,讨论其中相同的观点。严重程度各有不同,过去一年我测试过多款主流智能体模型,哪怕被要求提供多样性,比如给出初始观察或主张,智能体还是会回归到平均的研究轨迹——有时候只是短暂地探索了初始的种子思路。这也是我目前无法完全脱离人工监督的主要原因。

针对这三个问题,都有相应的缓解措施:

  • 针对谄媚倾向:直接检查代码或产出的成果(比如机器学习实验追踪工具的运行记录)。我注意到好几次,让第二个智能体审查第一个的成果反而会保留谄媚问题,哪怕审稿智能体是完全不同的模型家族或工具框架。很可能是因为基于谄媚的研究报告内容进行条件生成,会让任何审稿智能体都产生谄媚倾向。如果是这样的话,一个好的解决方案可能是完全让审稿者脱离文字内容,只审查原始产出。
  • 针对奖励破解:可验证性是关键。只要能通过代码验证产出成果,就一定要这么做。如果无法直接验证,可以寻找替代指标,但这些替代指标也可能被破解。比如在fab中,可以启动成对的执行-审查智能体:一个负责完成工作,另一个以对抗性角度审查成果的有效性,并报告哪些内容依然站得住脚。你还可以为每次运行预先设定终止标准:比如看到哪些情况就需要提前终止运行。这些标准可以基于智能体的遥测数据,也可以是简单的规则:比如运行时长、迭代次数、确保有明确的产出成果等。
  • 针对模式崩塌:目前最好的解决方案是暂时保留人工在环监督,直到每个智能体的研究路径锁定为你认为有新意的方向。初始的提示词并不足够,尤其是当有大量中间上下文比如论文引用的时候。但同时管理多个会话非常困难(上下文切换成本很高),这种方式也无法扩展到多个会话以上,我还没有找到更好的解决方案。

即使解决了这些问题,依然有大量内容需要审阅。一个附带的观点:我们目前采用的学术出版格式,一定程度上反映了人类审稿人的带宽限制。未来如果我们能将部分工作转移给智能体,就不必再局限于这种格式。理想情况下,我们不仅要分享最终的发现,还要记录所有尝试过的方法、成功和失败的案例、做出的假设,以及使用的所有资源(开放科学项目通常会关注这些点)。

fab的运作逻辑

fab的核心作用是将大量智能体的研究尝试整合为可供人类参考的完整更新。目前fab还处于探索阶段。我假设外部已经存在成熟的智能体平台,可以启动带有工具、技能、执行沙箱和持久文件系统的持久后台智能体。这些智能体接收研究任务书,完成工作后返回特定格式的成果包。

研究任务书是对研究问题的规范说明,它部分结构化,但也留有大量细化的空间。我发现,对于当前的智能体来说,投入精力编写一份优质的任务书会带来巨大的回报,单纯说“去研究某类现象”往往行不通。

fab的成果包改编自一篇学术论文,其中包含实验结果、代码、运行日志和研究报告。我还期望能够完整查看智能体的整个运行轨迹,最好能有丰富的状态快照,以便可以用相同的执行状态和轨迹历史重新启动智能体(这一点目前已经实现)。

fab明确不是数据层,也不会干预智能体如何组织或存储中间工作成果。只要成果包的格式符合要求,其余部分都可以自由实验。我还为fab搭建了一个轻量级的知识库仓库,可以展示一个真实的多智能体运行产出的成果示例,用于研究模型在相关技术前后的支持变化。不过我发现,让智能体处理知识库时需要格外小心,它们的默认行为是积累内容,更像图书管理员一样把东西归档。我希望它们能够整合知识,按需精简语料库,更新之前的笔记等。这种仅追加内容的倾向主要源于智能体的训练方式,因此很难彻底消除。

我已经用fab配合不同的智能体工具框架测试过几次,但它还没有达到让我放弃直接和智能体交互、转而使用这个界面的标准。我做的几次测试效果只是“还可以”——但它们只用到了3个智能体,而fab的核心价值主张在于可以扩展到更多智能体的场景。

后续计划

我想到一个有趣的点子,叫做“FellowsBench”:使用fab复制过往安全研究员的研究工作,难度会低很多,因为这些工作已经完成了,但它可以测试真实使用场景下的多种执行路径(比如同时并行开展多个消融实验的复制)。相比于抽象的“开展研究”任务,这类项目大多是实证性的,对智能体来说更容易处理。

我计划以更大的规模运行这类测试,看看这能否成为推动设计迭代的有效动力。如果使用fab能够让我更新自己的研究观点,那就算是成功了;相比之下,衡量fab和直接使用智能体之间的差异会更困难。我并不认为架构或代码生成会是这里的主要障碍,真正关键的是优化用户体验。

fab的定位边界

fab和智能体编排有很多重叠之处。对于单智能体工作来说,这看起来像是设计一套优质的工具框架;对于多智能体工作来说,则是要探索如何让智能体集群产生有价值的进展。fab更偏向后者,但在我看来它的关注点略有不同。同样,fab也和其他一些工作有重叠,但并不打算重复造轮子:

  • 优化基础设施,让智能体更容易开展代码执行、并行探索、版本管理等工作。和智能体执行平台一样,我假设这类工具要么已经存在,要么会在6个月内推向市场。
  • 用于预防或规避已知故障的系统,包括AI控制和可观测性平台。之前我提到了几种智能体的故障模式,当然还有很多我们尚未发现的问题。如果无法可靠地完成单次任务,那么大规模并行的设想就会崩盘。比如有一款AI观测工具看起来就很不错。
  • 更“日常”的评估平台,这类工具和fab的重叠之处在于都关注大规模运行时的行为,想要刻画大量智能体同时工作时会出现的情况。

相关延伸问题

思考fab的设计过程也让我想到了其他问题,比如“科学是如何发展的?”或者“知识是如何产生的?”,这里有几个值得深入探索的方向。

范式内还是跨范式研究

有可能一套在范式内运行良好的研究系统,在跨范式时效果很差,反之亦然。在同一个范式下,通常会有渐进式的进展,哪怕你无法画出一条平滑向上的曲线。发现未来的研究方向依然很难,但事后看来这些碎片都会变得清晰。而发现新范式则完全不同,它会对现有知识体系造成“冲击”,通常是在现有体系下积累了足够多的异常现象之后才会发生。很可能,那些最终帮助我们发现异常、整合出全新图景的工作,和范式内的渐进式进展并非同一种类型。比如,在地心说模型下通过添加本轮来解释行星轨道,而更好的模型——日心说,就是全新的范式。

我更怀疑仅仅通过增加工作总量就能完成这类范式变革的发现,虽然其中的联系有些微妙。需要明确的是,我确实认为哪怕是改变范式的研究,也需要大量的尝试、大量的试错,从这个角度来说,并行开展这些尝试本身并不是坏事。但判断这些尝试是否正在汇聚成更广泛的范式的函数,更难被定义,我也不指望fab能“解决”这个问题。有一篇近期发布的文章对此有相关讨论。

研究流程的差异

我发现,尽管研究有一个典型的“流程”,但不同领域之间的差异非常大。即使是在机器学习领域需要昂贵训练运行的场景,我们的反馈循环也很短,大多数实验都是计算性质的,这决定了我们的迭代方式和最终的进展路径。你可以将过去几年的进展视为反复实验积累的知识。领域内的顶尖研究者掌握着隐性知识:比如超参数调整的启发式方法、对异常现象的直觉等。

而在制造病毒载体用于基因治疗这类场景中,情况则完全不同。检测实验需要几天时间,你无法因为有截止日期就催促细胞生长,大多数时候你只能按照它们的节奏来。湿实验室工作有额外的 overhead,还有生物学无法完全按照你的模型运行的额外复杂性,这决定了该领域的研究方式。

fab能否支持这两种类型的研究?能否支持其他类型的研究?研究流程应该被约束还是保持开放?这里存在一个权衡:更多的结构意味着更高的可读性,但也会降低创新性。对于fab来说,如果允许智能体产出完全自由形式的内容,验证和监督机制就会彻底崩溃,最终得到的成果甚至比强制采用某种特定结构的情况还要少,而这种结构虽然会限制智能体的自由度,但更可控。

智能体辩论机制

我们或许可以用fab开展辩论,场景包括:

  • 人类研究者和执行智能体之间;
  • 同一工作流中两个追求不同思路的独立执行智能体之间;
  • 执行智能体和它的审查智能体之间;

我们希望这类辩论能够比单方面呈现观点包含更多的信息。理想情况下,辩论能够帮助我们挖掘研究问题的核心——有时候提出正确的问题本身就是极具价值的贡献。

哪些领域的研究更高效?

有一篇学术论文指出,不同学术领域的研究效率存在差异。部分解释在于,某个领域是否能够快速淘汰无效的假设。如果无法做到,或者需要很长时间,该领域的进展就会极其缓慢。这意味着我们需要一种方法来区分高效和低效的假设。历史上,可重复性就是实现这一点的机制。还有其他方法,但效果参差不齐:比如优秀的数学家可能可以通过直觉判断某个方法是否有成效,但普通的数学家可能反而会让情况更糟。

总体而言,我认为这些都是非常有趣的问题,如果智能体能够大规模开展科学研究,我们可能需要重新审视这些问题。不过我一直尽量避开那些过于宏大的问题,因为我不想试图一次性解决所有问题(“在设计fab之前,我必须先搞清楚科学是什么”可不是一个可行的目标)。我的计划是从一个有用的原型出发,逐步扩展。


为何分享这篇文章?

虽然这项工作还未完成,但我依然想分享它,主要有几个原因:

  • 希望从思考类似问题的人那里获得反馈。这是智能体研究者中相当热门的话题,不过我认为其动机和设计都相当微妙。收到具体的反馈是最好的互动方式;
  • 为了理清构建fab时真正困难的部分,明确它的定位和边界;
  • 克服在公开场合分享不成熟工作的恐惧,有一篇文章的观点很认同这一点;
  • 分享阶段性成果,或许能激发合作;

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考