首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >万字解读：为何长上下文治不了多模态 AI 的「健忘症」？

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？

来源：互联网时间：2026-06-11 07:58:53

“多模态长记忆在「看得准、找得到、想得清」三大环节的底层逻辑与工程避坑指南。”

过去一年，在大模型技术演进这场大戏里，“长上下文”可以说是最抢镜的主角之一。数字从128K跳到1M，再到那个听起来无穷大的“无限窗口”，给人一种AI已经无所不知、过目不忘的错觉。

但行业内一直有个巨大的认知盲区需要澄清：

上下文变长了，是不是就等于记忆变好了？答案并非如此。

多模态长程记忆，究竟是通往“数字生命”的最后一公里，还是目前技术底座下的一道天堑？为了搞清楚这个问题，本期GAIR Live请来了两位极具代表性的专家，他们一位拿“最苛刻的尺子”给全球顶尖模型做了次深度体检，另一位则在产业一线总结出了最实用的实战解法。

他们分别来自：

香港科技大学博士生、全球首个多模态长记忆评测标准MemLens主导作者任玺谕；丘脑智能CEO、Omni-Mem框架负责人张源。

在这场硬核对话中，他们从三个维度拆解了多模态长记忆落地的三道生死关：看得准、找得到、想得清。

“看得准”：从Caption转向“证据指纹”的范式重构

讨论一开始，就指出了一个核心痛点：主流的Caption（图像摘要）方案，很可能是长记忆失效的源头。

任玺谕通过实验证明了这一点。Caption这种处理方式，天生就容易丢失掉登机牌上的日期、票据上的金额这些关键细节。更要命的是，因为系统无法预知用户未来会问什么，这种入库时的“盲目压缩”，直接导致了信息的不可逆丧失。

张源给出的解决思路，是从根本上重构了“证据”的定义。他提出不再傻乎乎地存原始像素或一段文字，而是去构建一个“结构化证据链”——就类似于视频的“证据指纹”和高保真记忆单元。这套方案模仿了人类海马体与皮质层的协作方式，将关键视觉特征（人脸、属性、空间关系）锁定在语义空间中，再通过“锚定-分级压缩-定期校验”这套体系，确保这些记忆在长达数年的周期里不会发生变形。

“找得到”：检索优先级高于推理，跨模态路由是命门

这场对话透露了一个碘伏性的认知：多模态长记忆的瓶颈，其实根本不在模型的“推理层”，而是在“检索层”。

MemLens的实验数据非常直观：只要人工替模型把证据找对，模型的准确率能直接从30%飙升至90%以上。这意味着，只要证据到位，模型自己就能想明白。关键问题在于，在跨模态的数据大海里，模型自己捞不到那根“针”。

那么，怎么捞？关键在于识别用户Query中的跨模态线索。张源分享了丘脑智能的“三级防御体系”：

第一步，先把问题拆解成文本、视觉、时序这几个维度的意图谱；第二步，进行“线索模态路由”，直接定向到对应的搜索引擎，别大海捞针；第三步，把不同引擎召回的零散证据融合成完整链条。

这套打法不仅将准确率从20%直接拉到了60%的可用线，更重要的是，它从源头上缓解了长上下文场景下那种令人头疼的“稀释效应”和“检索过敏”。

“想得清”：终结“过期记忆”的背叛与拒答能力的回归

当AI有了记忆，幻觉也跟着进化了。任玺谕在研究中发现，在长记忆场景下，幻觉呈现出两种非常棘手的形态：

一是“状态更新失败”。

比如用户口味已经从喜欢苹果变成了猕猴桃，但AI还傻乎乎地给你推荐苹果。

二是“拒答能力退化”。

一个很反直觉的现象是，模型被微调得越多，就越盲目自信，哪怕没证据也敢胡编乱造，因为它知道“答了就有奖励”。

针对这个问题，张源强调，记忆系统必须“以用户为中心”，而不是“以事实为中心”。他们的做法是，给每一个记忆单元都打上时间戳、置信度和证据链的标签，建立一个“时序优先”的加权仲裁规则。比如，用户直接说“我不吃苹果了”，这个信息的权重就远高于系统推测出来的。同时，他们把检索证据和模型生成的过程彻底解耦：如果检索引擎给出的分数太低，系统就必须学会优雅地“说不”。在这个领域，拒绝回答，往往比给一个错误答案更能守住信任的生命线。

未来展望：2026年的“皮层+海马体”生态

对于未来，两位嘉宾的观点很一致。未来的产业分工将非常明确：

基座模型（LMM）就像我们的“大脑皮层”，负责处理那些瞬时、精细的感知任务；而记忆框架厂商则像“海马体”，专门管理长程、结构化的信息。他们预测，到2026年，行业会诞生标准化的“视觉证据交接接口”。

随着具身智能等任务的复杂化，多模态长记忆将面临更大的挑战——从“单帧静态记忆”跨越到“连续动作序列记忆”。这既要求模型层在时序视觉表示上取得突破，也要求工程侧通过Hybrid混合架构，在算力和保真度之间找到平衡。

总之，多模态长记忆从Demo走向可靠产品的路线图，已经越来越清晰了。

（以下为本次圆桌讨论的精彩分享，在不改原意的基础上进行了编辑整理。）

岑峰：

各位观众晚上好，欢迎来到GAIR Live。过去一年，大模型领域最卷的参数之一就是上下文长度。但现实中，AI即使读了万卷书，依然记不住昨天把车钥匙放哪了。为什么多模态长程记忆落地这么难？今天我们请到了两位专家：任玺谕博士和张源。首先请二位简单介绍一下自己，并回答：为什么多模态记忆值得作为一个独立命题来讨论？

任玺谕：

我是任玺谕，我们的工作是为全球27个顶尖视觉语言模型和7个记忆智能体做了一次深度体检。结论很明确：多模态记忆绝不是长文本的简单分支。在日常交互中，用户拍的照片，比如白板、登机牌，都是核心证据。纯文字的记忆系统，在长对话中很快就会把这些关键证据给丢了。原因在于，图像翻译是有损的。长文本压缩丢冗余，图像压缩丢的却是证据。更致命的是，系统在入库的时候根本不知道用户三个月后会问什么，所以它没法决定该保留哪些细节。这就是为什么，多模态记忆必须作为一个独立的命题被研究。

张源：

我是张源，我们从产业视角看，大家会发现AI进入物理世界的第一步，不管是具身智能还是智能座舱，交互入口本身就是多模态的。而且，人类接收到的信息流里，带宽最大、最接近第一性原理的信息也是多模态的。所以，AI在执行任何长程任务时，都绕不开它。我们从产业需求中看到了巨大的机会。

01 看得准：视觉证据的颗粒度与工程保真

岑峰：

感谢两位。你们都达成了一个共识：多模态长记忆已经是刚需了。玺谕，你在MemLens里有一个关键发现，说有些基座模型被集成进记忆Agent后，性能从49%暴跌到15%。这说明了什么？这34%的断崖下跌，究竟丢在了哪个环节？

任玺谕：

这34%的损失不是在推理环节，而是在写入环节就“蒸发”了。问题主要出在三个方面：第一，很多记忆Agent为了省空间，写入时过度压缩图片；第二，Caption方案只保留了图像大意，丢失了数量、空间关系这些颗粒度信息；第三，当用户后期追问时，模型再也调取不到原始像素了。最关键的是，模型在入库那一刻，并不知道以后会用到什么信息。这就像你把一本书里最重要的几页提前抽走了，然后还指望自己过目不忘。

岑峰：

你是怎么证明证据是在写入环节丢失的，而不是在检索环节？

任玺谕：

我们用三步逻辑把这个猜测做实了。第一步，我们设计了“两跳”逻辑问题，模型必须先看懂图，再去文本里找线索。第二步，我们做了个对照实验，对同一道题，分别给模型看原图和看模型自己生成的Caption。结果发现，使用Caption的纯文本系统，表现和多模态系统几乎一样。这就把瓶颈锁定在了“把图压成Caption”那一步。第三步，我们做了错误归因，发现将近90%的错误原因，是“没看到”而非“没想通”。所以结论很明确：长上下文场景下，模型的瓶颈在于“眼睛”，而不是推理。

岑峰：

张总，面对海量的视频数据，你提出“人生级上下文”，不可能全量存原始视频，那怎么在工程上保证证据的保留？

张源：

我们的策略是把“证据”的定义，从“原始像素”升级为“结构化证据链”。首先，我们会做一个噪声过滤与时空对齐，比如一小时里静止的画面，就直接压缩成一帧，只保留“重点帧”。然后，我们用强多模态模型对核心帧进行无损特征提取，把颜色、纹理、空间关系、人脸这些视觉证据，和原始像素绑定。这就好比我们记的不是一整段监控视频，而是一张张带有详细注释的关键照片。最后，我们实施记忆分级，高频访问的关键证据进“热存储”，低频背景数据进“冷存储”，只保留索引。这样既能保证证据可追溯，也能实现人生级上下文的工程落地。

岑峰：

这个思路很棒。但当任务跨度真的拉到“人生级”，你怎么防止这些特征在不断压缩存储中，出现语义变形或失效？

张源：

放弃了“存更多数据”的思路，转而追求“存住有效证据”。我们引入了状态更新与遗忘机制。比如，我一直爱吃辣，但我最近感冒了，系统会通过状态更新，让“最近不太能吃辣”覆盖掉旧的偏好，并且遗忘掉那些不再重要的信息。其次，我们自研了一个叫E2P的技术框架，原理是把关键信息（比如机票金额、车牌号）当作“语义锚点”锁死在语义空间里，之后无论怎么压缩，都不会破坏这个锚点。最后，还会通过一个“语义一致性校验”机制，定期给记忆单元做体检，一旦发现偏差，就触发修复流程。这样，通过“锚定-分级压缩-校验”这套体系，就能保证语义特征在整个生命周期里保持稳定。

02 找得到：跨模态证据的“大海捞针”与检索架构

岑峰：

好了，证据存住了，但更大的挑战在后头。玺谕在MemLens里做了一个惊人的实验：只要人工找对证据直接喂给模型，准确率立马飙到90%以上。这是不是说明，行业过去太迷信长文本推理，而忽略了跨模态检索才是真正的命门？

任玺谕：

完全正确。我们把这个现象量化到了极致。实验显示，多模态跨会话推理是目前所有系统的天花板，大多数系统得分低于30%。而一旦我们替模型完成“找证据”这一步，GPT-4o和Gemini Pro 1.5的准确率直接飙到90%以上。这说明真正的挑战压根儿不在推理，而是在检索。我们进一步把检索问题分为两类：一类是根本没找到证据，另一类是找对了证据但依然答错。这说明“找得到”和“想得清”是两码事，能被分开诊断。

岑峰：

很多人觉得，只要窗口无限拉长，让模型自己去看所有历史不就行了？但MemLens发现，当历史长达128K时，准确率反而下降了13%。为什么这种现象在多模态场景下更严重？

任玺谕：

长窗口其实是个陷阱。它解决了“装得下”，解决不了“找得准”。窗口一长，模型就变得“虚假自信”，拒答能力显著下降，开始自信地胡说。多模态场景下更严重，原因有二：一是视觉信息占用的Token量极大，几张图就能把信噪比彻底压垮，真实证据被淹没；二是在压缩后的视觉编码上进行检索，比在原始文本上检索要难得多。

岑峰：

张总，既然检索是命门，你们怎么识别用户Query里哪些线索是文本，哪些是图像？

张源：

我们非常认可MemLens这个实验，它用科学的方法论证了基座模型和记忆企业之间是有分工的。即使上下文窗口变得再长，也不代表记忆体验能变好。针对跨模态线索，我们的解法是引入“跨模态意图拆解”。简单说，就是把用户的一个问题，先拆成一个多维度的“意图图谱”。比如用户问：“上次在某咖啡馆拍的穿蓝衣服照片里，我手里拿着什么？”系统会先拆解出“咖啡馆”是文本线索，“蓝衣服”是视觉线索，“上次”是时序线索。接着，进行“线索模态路由”，文本线索走语义索引，图像特征走视觉索引，时间属性走时间轴。这就避免了盲目遍历所有数据，效率直接提升一个量级。

岑峰：

你们有没有遇到过特别有意思或者古怪的测试问题？

张源：

我们做过一个“找钥匙”的趣味测试。用户问家里一段监控视频里，钥匙最后出现在哪。系统识别出钥匙曾出现在一个穿黑衣服女生的手里，后来她坐在沙发上，钥匙不小心滑进了沙发缝。最终AI不仅给出了时间，还建议用户去沙发附近找。这种涉及复杂空间互动和时序逻辑的问题，正是我们想攻克的方向。

岑峰：

面对长历史带来的“检索过敏”，你们有什么独特的算法能防止模型被无关内容带偏？

张源：

我们的抗过敏方案是一套“三级防御体系”。第一级，在上游做“意图驱动的多级召回”。传统检索是图书馆里一本书一本书地遍历，我们是在用户问“去年生日蛋糕”时，直接锁定去年生日的时间段，只在这个范围内召回，从源头减少噪声。第二级，做“相关性重排序和负样本对比”。系统会额外用一个多模态模型来判断，召回的内容是不是真的和用户意图相关。第三级，是“证据可信度校验”。模型在开始推理前，会先给证据打个分，只有高于阈值才会被引用。如果没找到可靠证据，就明确回答不知道。这套体系从源头缩小范围，再精准排序，最后做校验，确保了模型不会被噪声带偏。

03 想的清：终结“逻辑雪球”与状态更新的信任挑战

岑峰：

拒答和“自信地胡说”是行业老话题了。但在长记忆场景下，这个问题变了味。最典型的就是“状态更新失败”。用户口味都变了，AI还固守旧记忆。这种“想不清”导致的“自信胡说”，是用户最难接受的。玺谕，你定义的“状态更新失败”，反映了模型训练的哪些偏差？

任玺谕：
比如用户说“我从喜欢苹果，到香蕉，再到猕猴桃”，模型得能准确找到链条的最后一环。失败的原因通常是“过期检索”。检索算法基于语义相似度，它会把所有提到水果的地方都捞回来，但模型分不清哪个是当下的状态。这在现实产品里很危险，比如用户搬到上海，AI还推荐北京的餐厅。根源在于，模型训练的目标是答出“通用事实”，追求博学和自信。但在记忆系统里，用户的私有动态状态才是唯一“事实”。当用户的表达和模型的常识冲突时，模型的本能是相信常识，而不是相信用户。在记忆系统里，模型的先验知识，有时反而是必须克服的“累赘”。

任玺谕：
另一个现象也很值得关注：模型在接入记忆后，拒答能力反而退化了。原本不会的就说不懂，现在有了记忆反而开始瞎编。我们做实验发现，很多模型在针对记忆进行微调后，拒答率从70%直接跌到10%以下。原因很简单，因为目前的微调只奖励“答对”，从来没有设置过“不知道时正确拒答”的奖励。模型被训成了不惜一切代价也要给出答案的模式，这非常危险。

岑峰：
张总，针对这种新旧习惯冲突，你们在工程上是如何处理的？

张源：
我们的核心原则是：记忆系统必须以用户为中心。我们把记忆单元打上三类标签：时间戳、置信度和证据链。我们非常强调时间维度。策略是建立一个“时序优先”与“证据加权”的仲裁规则。首先，时间戳越新，权重越高；其次，用户亲口说的（直接证据）大于图片线索，图片线索又大于多跳推断。比如用户说“我不爱吃苹果了”，这比系统观察到“用户很久没吃苹果”要可靠得多。在推理时，模型会校验是否存在新旧冲突，自动选择最新、最可靠的版本。

但这个问题还没彻底解决。比如我平常极度爱吃辣，但最近感冒了必须忌口。如果系统简单地用“最近不吃辣”覆盖掉长期偏好，病好了它还推荐清淡饮食，这在一个更长的时间尺度上看，也是一种错误。我们正在研究如何剥离“长期特质”与“短期波动”，这需要学术界的更多突破。

岑峰：
针对“拒答”这条底线，当你们服务政府或零售这类严谨客户时，如何确保AI能优雅地拒绝，而不是编造记忆？

张源：
对于严谨行业，对幻觉的容忍度几乎为零。我们的核心解法是“检索证据与模型生成解耦”。第一，空结果识别。检索引擎会给每次召回打分，如果分数低于阈值，系统直接判定为无有效证据。第二，证据驱动生成。模型的推理模式被严格限制在证据链内，绝不允许自由发挥。如果没证据，模型必须触发预设的拒绝话术，引导用户提供更多信息。第三，审计合规兜底。我们还会记录每一次检索和回答的完整日志，万一出错，也能回溯是哪个环节出了问题。说到底，不能寄希望于模型的“自觉”，必须靠工程硬约束。未来的产业需要的不是一个无所不知的聪明模型，而是一个言必有据的可信系统。

04 未来展望：混合架构的产业分工

岑峰：
过去一小时，我们深入探讨了多模态长记忆这三大难题。我很认同一种比喻：长记忆的终局，应该是长上下文与记忆智能体的混合体。基座模型像处理瞬时信息的“大脑皮层”，而记忆框架是管理长程信息的“海马体”。请问两位，这种“皮层+海马体”的分工，在2026年可能会形成什么样的标准或生态？

任玺谕：
这个比喻非常贴切。我们的实验数据也支持这种分工。我预测2026年会形成清晰的接口分层。基座模型厂商专注于保证窗口内“看得准”，记忆厂商则专注于保证长周期内“存得住、找得回”。目前两者之间的“带宽”，也就是视觉证据如何标准化交接、多模态证据如何跨层级对齐，还是一个待填的技术空白。

张源：
我非常认同。基座模型再聪明，面对海量数据时也是个“没有记忆的空白脑袋”。记忆企业的核心使命，就是让这些聪明的大脑在处理复杂任务时，能随时关联到以往的历史记录，并且始终忠于用户的个人记忆。

岑峰：
从学术角度，要实现从“单帧记忆”向“连续动作序列记忆”的跨越，模型层需要什么突破？

任玺谕：
实际上单帧的保真问题至今没被完美解决，连续动作的挑战会大一个量级。我认为模型层需要三方面的突破：首先是开发能精准保留动作语义的时序视觉表示，而不是存像素；其次是将动作和事件本身作为“一等记忆”进行结构化存储；最后是实现跨帧的实体追踪与状态延续。

岑峰：
展望未来12个月，有哪些多模态记忆的“坑”最有望通过工程技巧填平？

张源：
我认为有三件事最有希望。第一，多模态证据的“对齐与结构化”。未来行业将普遍采用“先锚定、再存储”的范式，用强模型在写入时就把关键证据锁定在语义空间。第二，“跨模态检索架构”的成熟。通过意图拆解和定向路由，仅靠工程优化就能把检索准确率从20%-30%提升到60%以上的可用线。第三，“记忆冲突与状态更新”的系统化解决。带时间戳、置信度和证据链的结构化记忆单元，将成为标配。

岑峰：
填旧坑的过程中，会不会产生新挑战？

张源：
会。具身智能的落地会让矛盾更尖锐。具身记忆管理的不再是对话，而是环境、动作和物体的位移轨迹。如果记忆问题不解决，物理AI在处理复杂任务时的缺陷会暴露得更明显。

任玺谕：
没错。具身场景下，视觉证据密度更高，状态更新更频繁，而且对拒答和可信度的要求近乎苛刻——一个不会说“我不知道”的机器人是会出安全事故的。

岑峰：
感谢玺谕提供的严苛标尺，也感谢张总分享的实战药方。多模态长程记忆从Demo走向可靠产品的路线图，已经愈发清晰了。感谢各位收看本期GAIR Live。

相关阅读

一场算法幻觉引发的乌龙：SpaceX要收购诺基亚？别被AI洗稿自媒体骗了！

Swift学生挑战赛获奖者：如何向库克和特纳斯展示他们的应用

发那科机器人的手动操作

普华永道：中国内地企业AI应用能力领跑全球

美的与阿里巴巴达成战略合作探索“全屋智能+AI大模型+商业生态”新模式

相关下载

AI自动绘画大师

益智休闲 | 5.72MB

下载

万字解读：为何长上下文治不了多模态 AI 的「健忘症」？

“多模态长记忆在「看得准、找得到、想得清」三大环节的底层逻辑与工程避坑指南。”

上下文变长了，是不是就等于记忆变好了？答案并非如此。

香港科技大学博士生、全球首个多模态长记忆评测标准MemLens主导作者任玺谕；丘脑智能CEO、Omni-Mem框架负责人张源。

“看得准”：从Caption转向“证据指纹”的范式重构

“看得准”：从Caption转向“证据指纹”的范式重构

“找得到”：检索优先级高于推理，跨模态路由是命门

“找得到”：检索优先级高于推理，跨模态路由是命门

“想得清”：终结“过期记忆”的背叛与拒答能力的回归

“想得清”：终结“过期记忆”的背叛与拒答能力的回归

一是“状态更新失败”。

二是“拒答能力退化”。

未来展望：2026年的“皮层+海马体”生态

未来展望：2026年的“皮层+海马体”生态

（以下为本次圆桌讨论的精彩分享，在不改原意的基础上进行了编辑整理。）

岑峰：

任玺谕：

张源：

01 看得准：视觉证据的颗粒度与工程保真

01 看得准：视觉证据的颗粒度与工程保真

岑峰：

任玺谕：

岑峰：

任玺谕：

岑峰：

张源：

岑峰：

张源：

02 找得到：跨模态证据的“大海捞针”与检索架构

02 找得到：跨模态证据的“大海捞针”与检索架构

岑峰：

任玺谕：

岑峰：

任玺谕：

岑峰：

张源：

岑峰：

张源：

岑峰：

张源：

03 想的清：终结“逻辑雪球”与状态更新的信任挑战 岑峰：

03 想的清：终结“逻辑雪球”与状态更新的信任挑战

任玺谕：

任玺谕：

岑峰：

张源：

岑峰：

张源：

04 未来展望：混合架构的产业分工

04 未来展望：混合架构的产业分工

岑峰：

任玺谕：

张源：

岑峰：

任玺谕：

岑峰：

张源：

岑峰：

张源：

任玺谕：

岑峰：

相关阅读

相关下载

03 想的清：终结“逻辑雪球”与状态更新的信任挑战

岑峰：