首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >双榜SOTA！微软ACL2026新作重新定义AI长记忆

双榜SOTA！微软ACL2026新作重新定义AI长记忆

来源：互联网时间：2026-05-28 12:38:43

随着大语言模型在各类应用中加速落地，一个核心技术瓶颈日益凸显——AI始终缺乏真正的长期记忆能力。当前主流的

RAG（检索增强生成）方案

依赖语义相似度检索历史信息，

但“语义相似”并不等于“真正相关”

，常常出现检索结果不完整、无法区分信息相关性、缺乏推理能力等问题。

为应对上述挑战，微软研究团队提出了全新的

AI记忆框架Mnemis

，受认识论与认知科学双重启发，让AI不仅能

“快速检索”

，更能

“审慎推理”

，在两大权威长期记忆基准上均达到SOTA性能。该工作已

被ACL2026主会议接收

。

双榜SOTA！微软ACL2026新作重新定义AI长记忆

△图 1：Mnemis框架总览——层级图索引+双路径检索

RAG的“近视眼”困境

设想这样一个场景：用户问“Da ve在2023年去过哪些城市？”，正确答案是San Francisco和Detroit。传统RAG将查询转为向量，在历史对话中寻找语义最相似的片段。结果它找到了Boston和San Francisco，却完全遗漏了Detroit——因为“attended a conference in Detroit”被埋藏在一条长消息中，与“去过哪些城市”的语义相似度不够高。同时，RAG也无法判断Boston是居住城市而非旅行目的地。

这暴露了传统RAG的三个根本局限：

孤立评分
——每条记忆独立与查询比较，忽略记忆之间的关系；
语义偏见
——向量相似度偏爱字面匹配，对间接相关的信息天然不敏感；
无法推理
——系统不了解对话历史中存在哪些话题及其相互关系。

打个比方，RAG就像根据书名关键词找书，而有经验的图书馆员会先查阅分类目录，从结构上系统性地定位所有相关书籍。

Mnemis的核心设计：建构式索引+双系统检索

Mnemis的名字源自希腊神话中的记忆女神，其设计分为

索引

和

检索

两个阶段。

在

索引阶段

，传统RAG将对话分块、向量化、存入数据库，不建立任何结构——这对应认识论中的

保存主义

，记忆只是知识的“搬运工”。而

建构主义

认为记忆是主动的加工过程，人类在“记住”时就在进行组织和抽象。

Mnemis正是建构主义的计算实现：

它将碎片化对话组织成自适应的层级图，而非扁平的向量库

。

具体来说，第一层是

Base Graph（知识图谱）

，从对话中提取实体和关系，进行消歧、去重、聚合，消除碎片化。

第二层是

Hierarchical Graph（层级图）

，在知识图谱基础上将具体实体归纳为高层语义概念，建立跨主题的高阶连接。例如，San Francisco、Detroit等实体会被归入“Geographical Locations”概念，再进一步归入“Geography”类目。每个用户的层级图完全由其自身数据自适应生成。

层级图的构建遵循三个核心原则：

最小概念抽象（MCA）

确保每一层类别承载真实语义信息；

多对多映射（M2M）

允许一个实体属于多个类别，保证从任何角度检索都不会遗漏；

压缩效率约束（CEC）

确保层级结构逐层压缩，维持紧凑性。三者协同，从结构上保证了信息的无损性和全局可达性。

在

检索阶段

，Mnemis受诺贝尔经济学奖得主Daniel Kahneman的双系统理论启发，融合了两条互补的检索路径。System-1（快思考）将查询向量化，在Base Graph中快速匹配语义最相似的实体，适合直接简单的问题。

System-2（慢思考）

则利用LLM的推理能力，在层级图上自顶向下逐层遍历、智能筛选。当LLM确信某个类别下的所有内容都相关时，可触发Shortcut机制直接获取全部后代节点，兼顾准确性与效率。

最终，System-1确保语义直接匹配的记忆不遗漏，System-2确保结构相关但语义距离较远的记忆被覆盖，两者

融合互补

。

双榜SOTA！微软ACL2026新作重新定义AI长记忆

△图 2：Mnemis的双路径检索范式

效果验证：双基准SOTA

Mnemis在两个主流长期记忆基准上进行了全面评估。在

LoCoMo基准

上取得93.9%的准确率，在

LongMemEval-S基准

上取得91.6%的准确率，均显著优于现有的RAG和Graph-RAG方法。值得注意的是，以上结果仅使用GPT-4.1-mini作为底座模型，证明了框架设计本身的有效性。

双榜SOTA！微软ACL2026新作重新定义AI长记忆

△图3：LoCoMo基准实验结果

双榜SOTA！微软ACL2026新作重新定义AI长记忆

△图 4：LongMemEval-S基准实验结果

案例分析

回到开头的案例。面对“Da ve在2023年去过哪些城市”这一查询，System-1通过语义匹配找到了Boston和San Francisco，但遗漏了Detroit。System-2则从层级图顶部出发，依次定位到Geography→Geographical Locations，触发Shortcut直接获取所有城市实体，成功检索到Detroit。两条路径融合后，模型进一步推理判断Boston为居住城市而非旅行目的地，最终给出完整正确的答案。

双榜SOTA！微软ACL2026新作重新定义AI长记忆

△图5：案例分析——System-1与System-2的互补

另一个典型案例是“Sam遇到了什么健康问题促使他改变生活方式”。System-1被“health issue”等关键词吸引，检索到胃炎这一急性事件；而System-2通过层级结构定位到Physical Well-Being→Health→Health Factors，聚合多条记忆后发现，真正驱动Sam长期改变生活方式的核心因素是体重问题而非单次胃炎事件。这体现了System-2在抽象归因和长期动机分析上的独特价值。

思考与展望

Mnemis揭示了一个重要洞察：

记忆系统的质量，很大程度上取决于“存储时做了什么”，而不仅仅是“检索时怎么找”。

传统RAG将所有智能都放在检索阶段，而索引阶段几乎是无加工的分块向量化。Mnemis的设计理念是在索引阶段就进行深度语义建构，使检索阶段能同时利用快速匹配和结构遍历——这恰好对应人类记忆的两个关键特征：

存储时的建构性和提取时的双模式。

团队认为，真正的AI记忆应当是有组织的、可推理的、双模式的、并能持续进化的。Mnemis是这一方向上的重要探索。

论文链接：https://arxiv.org/abs/2602.15313

GitHub：https://github.com/microsoft/Mnemis

双榜SOTA！微软ACL2026新作重新定义AI长记忆

RAG（检索增强生成）方案

但“语义相似”并不等于“真正相关”

AI记忆框架Mnemis

“快速检索”

“审慎推理”

被ACL2026主会议接收

RAG的“近视眼”困境

孤立评分

语义偏见

无法推理

Mnemis的核心设计：建构式索引+双系统检索

索引

检索

索引阶段

保存主义

建构主义

它将碎片化对话组织成自适应的层级图，而非扁平的向量库

Base Graph（知识图谱）

Hierarchical Graph（层级图）

最小概念抽象（MCA）

多对多映射（M2M）

压缩效率约束（CEC）

检索阶段

System-2（慢思考）

融合互补

效果验证：双基准SOTA

LoCoMo基准

LongMemEval-S基准

案例分析

思考与展望

记忆系统的质量，很大程度上取决于“存储时做了什么”，而不仅仅是“检索时怎么找”。

存储时的建构性和提取时的双模式。

相关阅读

相关下载