Memora：突破AI长期记忆瓶颈，节省98%上下文token

塔猴速递

2026-06-30 09:32:06

文章摘要

当前AI代理缺乏规范内存系统，处理长期复杂任务效率低。Memora是可扩展内存系统，解耦存储内容与检索方式，平衡抽象与具体。它在两大基准测试达最优，最多减98%上下文令牌。相关论文已发表，代码开源，团队还在推进多项后续研究。

核心要点

当前AI代理无法留存过往交互记忆，处理长期复杂任务时需反复投喂相关信息或从外部检索，效率随任务复杂度提升快速下降，亟需更高效的长期信息留存与访问方案。
Memora是可扩展的内存系统，通过解耦存储内容（丰富的内存细节）与检索方式（轻量级抽象和锚定提示词），平衡了抽象性与具体性，大幅提升AI代理在长期任务中的生产力。
Memora在LoCoMo和LongMemEval两大基准测试中达到最优性能，优于Mem0、RAG和完整上下文推理方案，同时最多可减少98%的上下文令牌使用量。
相关研究论文已在ICML 2026发表，项目代码已开源至公开技术平台。

长期AI代理的核心瓶颈

当你需要一位AI助手协助推进跨月度的复杂项目时，理想的状态应该是它能记住几周来所有的沟通细节：你提出的约束条件、确认过的里程碑、调整过的截止日期，以及所有利益相关方的偏好。当你后续让它为同事起草项目更新时，它不仅能调取最新的决策，还能还原整个决策的演变过程——比如哪些方案被尝试过、哪些被否决、谁参与了讨论。但当前的AI代理很难做到这一点：大型语言模型本质上是无状态的，每一次会话都从零开始，长对话需要反复重读完整历史，新的信息要么被存储为碎片化的原始文本，要么被压缩成模糊的摘要，丢失关键细节。随着AI助手和自主代理进入长期部署场景，比如跟踪数月项目的助手、长期积累领域知识的研究代理，缺乏规范的内存系统已经成为能力升级的核心瓶颈。

目前已有不少研究尝试填补这一空白：Mem0会从对话中提取原子事实，检索增强生成方案会对原始文本片段建立索引以便后续召回，而Zep、GraphRAG等基于图的内存系统则通过实体关系构建结构化记忆。这些方案都取得了一定进展，但都面临一个无法回避的权衡：要么保留精细的细节但内存条目碎片化、失去叙事连贯性，要么通过压缩获得效率但丢失约束、边缘场景和数值等关键信息。基于图的内存系统虽然增加了结构，但仍依赖原始内容进行检索，且通常需要严格的本体架构，无法跨领域通用。现有的方案都没能解决抽象性与具体性之间的核心矛盾，而Memora正是为了解决这一问题而设计的。

Memora的核心设计思路

Memora是一款面向长期运行AI代理的结构化内存框架，其核心思路是将「存储什么」和「如何检索」解耦。内存内容可以保留丰富的细节，比如项目时间线、多轮讨论的约束条件，而通过一个独立的轻量级结构层来处理索引和检索。这种设计让内存系统可以平滑扩展：将相关信息整合为稳定的单元，在需要时调取精细细节，同时让代理无需重读完整历史即可导航自身的记忆记录。在标准的长对话基准测试中，Memora实现了全新的最优性能，同时相比将完整历史直接放入上下文的方案，最多可减少98%的上下文令牌使用量。

Memora的架构细节

Memora通过双组件结构解决了抽象性和具体性的矛盾。每一条内存条目都包含两部分：一是核心抽象标签，通常是6-8个词的短短语，用于概括这条内存的核心主题；二是内存内容值，存储完整的丰富细节。关键的是，仅会对核心抽象标签进行相似度检索，内存内容本身不会直接通过自身内容被检索。这种分离设计让同一主题下的新信息可以合并到已有的内存条目，而不会产生碎片化的重复条目。

除了核心抽象标签，Memora还会从内存内容中提取锚定提示词——这是一类上下文感知的短标签，为同一条内存提供多种不同的访问路径，相当于灵活的、自动生成的元数据。举个具体的例子：当用户提到“戴夫和莎拉同意将原型交付时间推迟到4月1日，试点项目到5月2日，MVP到5月30日”时，传统的知识图谱系统需要预先定义实体类型和关系模式，新增关系类型还需要扩展架构。而在Memora中，核心抽象标签「戴夫与莎拉确认的项目时间更新」作为标准访问入口，锚定提示词比如「戴夫项目更新」「项目原型时间表」「项目试点时间」则提供了多种检索路径，无需绑定固定的本体架构。后续无论是查询相关人员的贡献、项目交付时间还是试点进度，都可以通过不同的提示词定位到同一条完整内存。

在此基础上，Memora引入了策略引导检索器，将内存访问视为一个主动推理过程。与单次返回前k个语义相似条目的方案不同，策略检索器会迭代优化查询，通过锚定提示词扩展检索范围，找到语义相似但未被直接匹配的相关内存，并自主判断何时停止检索。这让代理可以导航到纯语义搜索无法覆盖的非局部上下文，像人类一样追溯关联事件的多跳依赖关系。检索策略既可以通过大模型手动提示生成，也可以通过强化学习蒸馏为更小的模型。

性能测试结果

研究团队在两个长上下文基准测试中对Memora进行了评估：一是平均包含600轮对话的LoCoMo数据集，二是上下文长度达115000令牌的LongMemEval数据集。Memora在两个数据集上都实现了最优性能：在LoCoMo上的LLM评估准确率达到86.3%，在LongMemEval上达到87.4%，优于RAG、Mem0、Nemori、Zep、LangMem等方案，甚至超过了直接使用完整上下文的推理方案。这种优势在多跳推理场景中最为明显，Memora通过锚定提示词遍历关联记忆的能力在此发挥了最大作用。

在效率方面，Memora的表现同样亮眼：每个对话的内存条目数量仅为Mem0的一半左右（344条 vs 651条），相比完整上下文方案最多可减少98%的令牌消耗。这意味着更少的存储开销、更少的读取成本，同时能提供更优质的回答。

未来研究方向

Memora的设计意义远超基准测试的性能提升。我们认为这项工作是迈向能够与用户进行长期协作、并在数月乃至数年内积累组织知识的AI代理的重要一步，而非仅局限于单一会话内的交互。基于这一基础，研究团队正在推进多个互补的研究方向：MemoraLoop探索内存系统如何从检索和任务失败中学习，将错误归因到内存 pipeline 的特定阶段并持续自我优化；Deferred Memory研究何时应该推迟内存构建，直到获得足够的上下文、证据或明确的未来使用需求，而非过早决定存储内容；Group Memory则探讨如何在团队和代理之间共享知识，同时保留数据来源、访问边界、所有权和敏感上下文。目前研究团队已随论文开源了Memora的代码，邀请社区基于这一内存表示方案进行拓展，探索AI代理摆脱无状态限制后所能实现的更多可能。

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台，致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴，你不仅可以学习众多AIGC类实战课程，获得与时俱进的AIGC技能和视野，还有机会获得长期商业合作和接单机会！点击进入：https://www.tahou.com/

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考