首页 > 教程攻略 > ai资讯 >双榜SOTA,微软ACL2026新作重新定义AI长记忆

双榜SOTA,微软ACL2026新作重新定义AI长记忆

来源:互联网 时间:2026-05-27 13:25:39

大语言模型的应用浪潮正席卷而来,但一个核心的瓶颈也越来越清晰:AI始终缺乏真正的长期记忆。目前主流的解决方案——

检索增强生成(RAG)

,虽然能快速调取历史信息,但其依赖的语义相似度检索有个致命伤:

“语义相似”不等于“真正相关”

。这导致检索结果常常不完整、无法判断信息间的深层关联,更谈不上进行逻辑推理。

为了突破这个瓶颈,微软研究团队提出了一个全新的

AI记忆框架Mnemis

。这个框架从认识论和认知科学中汲取灵感,让AI不仅能

“快速检索”

,更能

“审慎推理”

。它在两大权威的长期记忆基准测试中都达到了当前最优(SOTA)性能,这项成果也已被

ACL 2026主会议接收

△ Mnemis框架概览

RAG的“近视眼”困境

想象这样一个场景:用户问“Da ve在2023年去过哪些城市?”,正确答案是旧金山和底特律。传统的RAG会把问题转化为向量,然后在历史对话里寻找语义最相似的片段。结果呢?它可能找到了“波士顿”和“旧金山”,却完全漏掉了“底特律”——因为“在底特律参加了一场会议”这条信息,可能埋藏在一段很长的消息里,和“去过哪些城市”这个问题的字面语义相似度不够高。更麻烦的是,RAG也无法判断“波士顿”是Da ve的居住城市,而非旅行目的地。

这个例子暴露了传统RAG的三个根本局限:

孤立评分

:每条记忆独立地与查询比较,忽略了记忆片段之间的内在联系。

语义偏见

:向量相似度偏爱字面匹配,对那些间接相关但逻辑上至关重要的信息天然“失明”。

无法推理

:系统不理解对话历史中包含了哪些话题,以及这些话题之间是什么关系。

打个比方,RAG就像只根据书名里的关键词在图书馆里找书;而一位有经验的图书管理员,会先去查阅分类目录,从整个知识体系的结构出发,系统性地定位所有相关书籍。

Mnemis的核心设计:建构式索引+双系统检索

Mnemis的名字源自希腊神话中的记忆女神,其设计清晰地分为

索引

检索

两个阶段。

索引阶段

,传统RAG的做法是把对话切块、向量化、然后存入数据库,不建立任何结构——这对应着认识论中的

保存主义

,记忆只是知识的“搬运工”。而

建构主义

则认为,记忆是一个主动的加工过程,人类在“记住”的同时,就在对信息进行组织和抽象。

Mnemis正是建构主义的计算实现:

它将碎片化的对话,组织成一个自适应的层级图,而不是一个扁平的向量库

具体来说,它构建了两层结构:

第一层是

基础图谱(Base Graph)

,从对话中提取实体和关系,进行消歧、去重和聚合,从而消除信息的碎片化。

第二层是

层级图(Hierarchical Graph)

,在基础图谱之上,将具体的实体归纳为更高层的语义概念,并建立跨主题的高阶连接。例如,“旧金山”、“底特律”这些实体会被归入“地理位置”这个概念下,而“地理位置”可能进一步归属于更上层的“地理”类目。关键是,每个用户的层级图都是根据其自身数据自适应生成的。

构建这个层级图遵循三个核心原则:

最小概念抽象(MCA)

确保每一层类别都承载真实的语义信息;

多对多映射(M2M)

允许一个实体属于多个类别,保证从任何角度检索都不会遗漏;

压缩效率约束(CEC)

确保层级结构逐层压缩,保持整体的紧凑性。三者协同工作,从结构上保证了信息的无损性和全局可达性。

到了

检索阶段

,Mnemis则受诺贝尔经济学奖得主丹尼尔·卡尼曼的“双系统理论”启发,融合了两条互补的检索路径。

系统一(快思考)

将查询向量化,在基础图谱中快速匹配语义最相似的实体,适合回答直接、简单的问题。

系统二(慢思考)

则利用大语言模型(LLM)的推理能力,在层级图上自顶向下、逐层遍历并进行智能筛选。当LLM确信某个类别下的所有内容都相关时,可以触发“捷径(Shortcut)”机制,直接获取该类别下的全部后代节点,从而兼顾准确性与效率。

最终,系统一确保语义直接匹配的记忆不被遗漏,系统二确保那些结构相关但语义距离较远的记忆也能被覆盖,两者

融合互补

,形成更全面的记忆检索。

△ 双系统检索流程示意图

效果验证:双基准SOTA

研究团队在两个主流的长期记忆基准上对Mnemis进行了全面评估。在

LoCoMo基准

上,其准确率达到93.9%;在

LongMemEval-S基准

上,准确率达到91.6%。这两个成绩均显著优于现有的RAG以及Graph-RAG等方法。

值得注意的是,以上优异结果仅使用了GPT-4.1-mini作为底层模型,这充分证明了Mnemis框架设计本身的有效性,而非单纯依赖大模型的强大能力。

△ 在LoCoMo基准上的性能对比

△ 在LongMemEval-S基准上的性能对比

案例分析

让我们回到开头的案例。面对“Da ve在2023年去过哪些城市”的查询,系统一通过语义匹配找到了“波士顿”和“旧金山”,但漏掉了“底特律”。系统二则从层级图顶部出发,依次定位到“地理”→“地理位置”类别,触发“捷径”机制直接获取该类别下的所有城市实体,从而成功检索到“底特律”。两条路径的结果融合后,模型还能进一步推理,判断出“波士顿”是居住城市而非旅行目的地,最终给出完整且正确的答案。

△ 案例一检索过程解析

另一个典型案例是:“Sam遇到了什么健康问题促使他改变生活方式?”系统一被“健康问题”等关键词吸引,检索到了“胃炎”这一急性事件。而系统二通过层级结构,定位到“身体健康”→“健康”→“健康因素”这条路径,聚合了多条记忆后发现,真正驱动Sam长期改变生活方式的核心因素,其实是“体重问题”,而非单次的胃炎事件。这体现了系统二在抽象归因和长期动机分析上的独特价值。

思考与展望

Mnemis揭示了一个至关重要的洞察:

记忆系统的质量,很大程度上取决于“存储时做了什么”,而不仅仅是“检索时怎么找”。

传统RAG几乎把所有智能都押注在检索阶段,索引阶段只是简单地进行分块和向量化,近乎无加工。Mnemis的设计理念则反其道而行之:在索引阶段就进行深度的语义建构,使得检索阶段能够同时利用快速匹配和结构遍历两种模式——这恰好对应了人类记忆的两个关键特征:

存储时的建构性,和提取时的双模式。

可以说,真正有价值的AI记忆,应当是有组织的、可推理的、双模式的,并且能够持续进化。Mnemis正是朝着这个方向迈出的重要一步。