文章摘要
当前AI代理缺乏规范内存系统,处理长期复杂任务效率低。Memora是可扩展内存系统,解耦存储内容与检索方式,平衡抽象与具体。它在两大基准测试达最优,最多减98%上下文令牌。相关论文已发表,代码开源,团队还在推进多项后续研究。

核心要点

  • 当前AI代理无法留存过往交互记忆,处理长期复杂任务时需反复投喂相关信息或从外部检索,效率随任务复杂度提升快速下降,亟需更高效的长期信息留存与访问方案。
  • Memora是可扩展的内存系统,通过解耦存储内容(丰富的内存细节)与检索方式(轻量级抽象和锚定提示词),平衡了抽象性与具体性,大幅提升AI代理在长期任务中的生产力。
  • Memora在LoCoMo和LongMemEval两大基准测试中达到最优性能,优于Mem0、RAG和完整上下文推理方案,同时最多可减少98%的上下文令牌使用量。
  • 相关研究论文已在ICML 2026发表,项目代码已开源至公开技术平台。

长期AI代理的核心瓶颈

当你需要一位AI助手协助推进跨月度的复杂项目时,理想的状态应该是它能记住几周来所有的沟通细节:你提出的约束条件、确认过的里程碑、调整过的截止日期,以及所有利益相关方的偏好。当你后续让它为同事起草项目更新时,它不仅能调取最新的决策,还能还原整个决策的演变过程——比如哪些方案被尝试过、哪些被否决、谁参与了讨论。但当前的AI代理很难做到这一点:大型语言模型本质上是无状态的,每一次会话都从零开始,长对话需要反复重读完整历史,新的信息要么被存储为碎片化的原始文本,要么被压缩成模糊的摘要,丢失关键细节。随着AI助手和自主代理进入长期部署场景,比如跟踪数月项目的助手、长期积累领域知识的研究代理,缺乏规范的内存系统已经成为能力升级的核心瓶颈。

目前已有不少研究尝试填补这一空白:Mem0会从对话中提取原子事实,检索增强生成方案会对原始文本片段建立索引以便后续召回,而Zep、GraphRAG等基于图的内存系统则通过实体关系构建结构化记忆。这些方案都取得了一定进展,但都面临一个无法回避的权衡:要么保留精细的细节但内存条目碎片化、失去叙事连贯性,要么通过压缩获得效率但丢失约束、边缘场景和数值等关键信息。基于图的内存系统虽然增加了结构,但仍依赖原始内容进行检索,且通常需要严格的本体架构,无法跨领域通用。现有的方案都没能解决抽象性与具体性之间的核心矛盾,而Memora正是为了解决这一问题而设计的。

Memora的核心设计思路

Memora是一款面向长期运行AI代理的结构化内存框架,其核心思路是将「存储什么」和「如何检索」解耦。内存内容可以保留丰富的细节,比如项目时间线、多轮讨论的约束条件,而通过一个独立的轻量级结构层来处理索引和检索。这种设计让内存系统可以平滑扩展:将相关信息整合为稳定的单元,在需要时调取精细细节,同时让代理无需重读完整历史即可导航自身的记忆记录。在标准的长对话基准测试中,Memora实现了全新的最优性能,同时相比将完整历史直接放入上下文的方案,最多可减少98%的上下文令牌使用量。

Memora的架构细节

Memora通过双组件结构解决了抽象性和具体性的矛盾。每一条内存条目都包含两部分:一是核心抽象标签,通常是6-8个词的短短语,用于概括这条内存的核心主题;二是内存内容值,存储完整的丰富细节。关键的是,仅会对核心抽象标签进行相似度检索,内存内容本身不会直接通过自身内容被检索。这种分离设计让同一主题下的新信息可以合并到已有的内存条目,而不会产生碎片化的重复条目。

除了核心抽象标签,Memora还会从内存内容中提取锚定提示词——这是一类上下文感知的短标签,为同一条内存提供多种不同的访问路径,相当于灵活的、自动生成的元数据。举个具体的例子:当用户提到“戴夫和莎拉同意将原型交付时间推迟到4月1日,试点项目到5月2日,MVP到5月30日”时,传统的知识图谱系统需要预先定义实体类型和关系模式,新增关系类型还需要扩展架构。而在Memora中,核心抽象标签「戴夫与莎拉确认的项目时间更新」作为标准访问入口,锚定提示词比如「戴夫 项目更新」「项目原型时间表」「项目试点时间」则提供了多种检索路径,无需绑定固定的本体架构。后续无论是查询相关人员的贡献、项目交付时间还是试点进度,都可以通过不同的提示词定位到同一条完整内存。

在此基础上,Memora引入了策略引导检索器,将内存访问视为一个主动推理过程。与单次返回前k个语义相似条目的方案不同,策略检索器会迭代优化查询,通过锚定提示词扩展检索范围,找到语义相似但未被直接匹配的相关内存,并自主判断何时停止检索。这让代理可以导航到纯语义搜索无法覆盖的非局部上下文,像人类一样追溯关联事件的多跳依赖关系。检索策略既可以通过大模型手动提示生成,也可以通过强化学习蒸馏为更小的模型。

性能测试结果

研究团队在两个长上下文基准测试中对Memora进行了评估:一是平均包含600轮对话的LoCoMo数据集,二是上下文长度达115000令牌的LongMemEval数据集。Memora在两个数据集上都实现了最优性能:在LoCoMo上的LLM评估准确率达到86.3%,在LongMemEval上达到87.4%,优于RAG、Mem0、Nemori、Zep、LangMem等方案,甚至超过了直接使用完整上下文的推理方案。这种优势在多跳推理场景中最为明显,Memora通过锚定提示词遍历关联记忆的能力在此发挥了最大作用。

在效率方面,Memora的表现同样亮眼:每个对话的内存条目数量仅为Mem0的一半左右(344条 vs 651条),相比完整上下文方案最多可减少98%的令牌消耗。这意味着更少的存储开销、更少的读取成本,同时能提供更优质的回答。

未来研究方向

Memora的设计意义远超基准测试的性能提升。我们认为这项工作是迈向能够与用户进行长期协作、并在数月乃至数年内积累组织知识的AI代理的重要一步,而非仅局限于单一会话内的交互。基于这一基础,研究团队正在推进多个互补的研究方向:MemoraLoop探索内存系统如何从检索和任务失败中学习,将错误归因到内存 pipeline 的特定阶段并持续自我优化;Deferred Memory研究何时应该推迟内存构建,直到获得足够的上下文、证据或明确的未来使用需求,而非过早决定存储内容;Group Memory则探讨如何在团队和代理之间共享知识,同时保留数据来源、访问边界、所有权和敏感上下文。目前研究团队已随论文开源了Memora的代码,邀请社区基于这一内存表示方案进行拓展,探索AI代理摆脱无状态限制后所能实现的更多可能。


塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考