首页 > 教程攻略 > ai资讯 >万字解读:为何长上下文治不了多模态 AI 的「健忘症」?

万字解读:为何长上下文治不了多模态 AI 的「健忘症」?

来源:互联网 时间:2026-06-11 07:58:53

“多模态长记忆在「看得准、找得到、想得清」三大环节的底层逻辑与工程避坑指南。”

万字解读:为何长上下文治不了多模态 AI 的「健忘症」?

过去一年,在大模型技术演进这场大戏里,“长上下文”可以说是最抢镜的主角之一。数字从128K跳到1M,再到那个听起来无穷大的“无限窗口”,给人一种AI已经无所不知、过目不忘的错觉。

但行业内一直有个巨大的认知盲区需要澄清:

上下文变长了,是不是就等于记忆变好了?答案并非如此。

多模态长程记忆,究竟是通往“数字生命”的最后一公里,还是目前技术底座下的一道天堑?为了搞清楚这个问题,本期GAIR Live请来了两位极具代表性的专家,他们一位拿“最苛刻的尺子”给全球顶尖模型做了次深度体检,另一位则在产业一线总结出了最实用的实战解法。

他们分别来自:

香港科技大学博士生、全球首个多模态长记忆评测标准MemLens主导作者任玺谕;丘脑智能CEO、Omni-Mem框架负责人张源。

在这场硬核对话中,他们从三个维度拆解了多模态长记忆落地的三道生死关:看得准、找得到、想得清。

“看得准”:从Caption转向“证据指纹”的范式重构

讨论一开始,就指出了一个核心痛点:主流的Caption(图像摘要)方案,很可能是长记忆失效的源头。

任玺谕通过实验证明了这一点。Caption这种处理方式,天生就容易丢失掉登机牌上的日期、票据上的金额这些关键细节。更要命的是,因为系统无法预知用户未来会问什么,这种入库时的“盲目压缩”,直接导致了信息的不可逆丧失。

张源给出的解决思路,是从根本上重构了“证据”的定义。他提出不再傻乎乎地存原始像素或一段文字,而是去构建一个“结构化证据链”——就类似于视频的“证据指纹”和高保真记忆单元。这套方案模仿了人类海马体与皮质层的协作方式,将关键视觉特征(人脸、属性、空间关系)锁定在语义空间中,再通过“锚定-分级压缩-定期校验”这套体系,确保这些记忆在长达数年的周期里不会发生变形。

“找得到”:检索优先级高于推理,跨模态路由是命门

这场对话透露了一个碘伏性的认知:多模态长记忆的瓶颈,其实根本不在模型的“推理层”,而是在“检索层”。

MemLens的实验数据非常直观:只要人工替模型把证据找对,模型的准确率能直接从30%飙升至90%以上。这意味着,只要证据到位,模型自己就能想明白。关键问题在于,在跨模态的数据大海里,模型自己捞不到那根“针”。

那么,怎么捞?关键在于识别用户Query中的跨模态线索。张源分享了丘脑智能的“三级防御体系”:

第一步,先把问题拆解成文本、视觉、时序这几个维度的意图谱;第二步,进行“线索模态路由”,直接定向到对应的搜索引擎,别大海捞针;第三步,把不同引擎召回的零散证据融合成完整链条。

这套打法不仅将准确率从20%直接拉到了60%的可用线,更重要的是,它从源头上缓解了长上下文场景下那种令人头疼的“稀释效应”和“检索过敏”。

“想得清”:终结“过期记忆”的背叛与拒答能力的回归

当AI有了记忆,幻觉也跟着进化了。任玺谕在研究中发现,在长记忆场景下,幻觉呈现出两种非常棘手的形态:

一是“状态更新失败”。

比如用户口味已经从喜欢苹果变成了猕猴桃,但AI还傻乎乎地给你推荐苹果。

二是“拒答能力退化”。

一个很反直觉的现象是,模型被微调得越多,就越盲目自信,哪怕没证据也敢胡编乱造,因为它知道“答了就有奖励”。

针对这个问题,张源强调,记忆系统必须“以用户为中心”,而不是“以事实为中心”。他们的做法是,给每一个记忆单元都打上时间戳、置信度和证据链的标签,建立一个“时序优先”的加权仲裁规则。比如,用户直接说“我不吃苹果了”,这个信息的权重就远高于系统推测出来的。同时,他们把检索证据和模型生成的过程彻底解耦:如果检索引擎给出的分数太低,系统就必须学会优雅地“说不”。在这个领域,拒绝回答,往往比给一个错误答案更能守住信任的生命线。

未来展望:2026年的“皮层+海马体”生态

对于未来,两位嘉宾的观点很一致。未来的产业分工将非常明确:

基座模型(LMM)就像我们的“大脑皮层”,负责处理那些瞬时、精细的感知任务;而记忆框架厂商则像“海马体”,专门管理长程、结构化的信息。他们预测,到2026年,行业会诞生标准化的“视觉证据交接接口”。

随着具身智能等任务的复杂化,多模态长记忆将面临更大的挑战——从“单帧静态记忆”跨越到“连续动作序列记忆”。这既要求模型层在时序视觉表示上取得突破,也要求工程侧通过Hybrid混合架构,在算力和保真度之间找到平衡。

总之,多模态长记忆从Demo走向可靠产品的路线图,已经越来越清晰了。


(以下为本次圆桌讨论的精彩分享,在不改原意的基础上进行了编辑整理。)

岑峰:

各位观众晚上好,欢迎来到GAIR Live。过去一年,大模型领域最卷的参数之一就是上下文长度。但现实中,AI即使读了万卷书,依然记不住昨天把车钥匙放哪了。为什么多模态长程记忆落地这么难?今天我们请到了两位专家:任玺谕博士和张源。首先请二位简单介绍一下自己,并回答:为什么多模态记忆值得作为一个独立命题来讨论?

任玺谕:

我是任玺谕,我们的工作是为全球27个顶尖视觉语言模型和7个记忆智能体做了一次深度体检。结论很明确:多模态记忆绝不是长文本的简单分支。在日常交互中,用户拍的照片,比如白板、登机牌,都是核心证据。纯文字的记忆系统,在长对话中很快就会把这些关键证据给丢了。原因在于,图像翻译是有损的。长文本压缩丢冗余,图像压缩丢的却是证据。更致命的是,系统在入库的时候根本不知道用户三个月后会问什么,所以它没法决定该保留哪些细节。这就是为什么,多模态记忆必须作为一个独立的命题被研究。

张源:

我是张源,我们从产业视角看,大家会发现AI进入物理世界的第一步,不管是具身智能还是智能座舱,交互入口本身就是多模态的。而且,人类接收到的信息流里,带宽最大、最接近第一性原理的信息也是多模态的。所以,AI在执行任何长程任务时,都绕不开它。我们从产业需求中看到了巨大的机会。

01 看得准:视觉证据的颗粒度与工程保真

岑峰:

感谢两位。你们都达成了一个共识:多模态长记忆已经是刚需了。玺谕,你在MemLens里有一个关键发现,说有些基座模型被集成进记忆Agent后,性能从49%暴跌到15%。这说明了什么?这34%的断崖下跌,究竟丢在了哪个环节?

任玺谕:

这34%的损失不是在推理环节,而是在写入环节就“蒸发”了。问题主要出在三个方面:第一,很多记忆Agent为了省空间,写入时过度压缩图片;第二,Caption方案只保留了图像大意,丢失了数量、空间关系这些颗粒度信息;第三,当用户后期追问时,模型再也调取不到原始像素了。最关键的是,模型在入库那一刻,并不知道以后会用到什么信息。这就像你把一本书里最重要的几页提前抽走了,然后还指望自己过目不忘。

岑峰:

你是怎么证明证据是在写入环节丢失的,而不是在检索环节?

任玺谕:

我们用三步逻辑把这个猜测做实了。第一步,我们设计了“两跳”逻辑问题,模型必须先看懂图,再去文本里找线索。第二步,我们做了个对照实验,对同一道题,分别给模型看原图和看模型自己生成的Caption。结果发现,使用Caption的纯文本系统,表现和多模态系统几乎一样。这就把瓶颈锁定在了“把图压成Caption”那一步。第三步,我们做了错误归因,发现将近90%的错误原因,是“没看到”而非“没想通”。所以结论很明确:长上下文场景下,模型的瓶颈在于“眼睛”,而不是推理。

岑峰:

张总,面对海量的视频数据,你提出“人生级上下文”,不可能全量存原始视频,那怎么在工程上保证证据的保留?

张源:

我们的策略是把“证据”的定义,从“原始像素”升级为“结构化证据链”。首先,我们会做一个噪声过滤与时空对齐,比如一小时里静止的画面,就直接压缩成一帧,只保留“重点帧”。然后,我们用强多模态模型对核心帧进行无损特征提取,把颜色、纹理、空间关系、人脸这些视觉证据,和原始像素绑定。这就好比我们记的不是一整段监控视频,而是一张张带有详细注释的关键照片。最后,我们实施记忆分级,高频访问的关键证据进“热存储”,低频背景数据进“冷存储”,只保留索引。这样既能保证证据可追溯,也能实现人生级上下文的工程落地。

岑峰:

这个思路很棒。但当任务跨度真的拉到“人生级”,你怎么防止这些特征在不断压缩存储中,出现语义变形或失效?

张源:

放弃了“存更多数据”的思路,转而追求“存住有效证据”。我们引入了状态更新与遗忘机制。比如,我一直爱吃辣,但我最近感冒了,系统会通过状态更新,让“最近不太能吃辣”覆盖掉旧的偏好,并且遗忘掉那些不再重要的信息。其次,我们自研了一个叫E2P的技术框架,原理是把关键信息(比如机票金额、车牌号)当作“语义锚点”锁死在语义空间里,之后无论怎么压缩,都不会破坏这个锚点。最后,还会通过一个“语义一致性校验”机制,定期给记忆单元做体检,一旦发现偏差,就触发修复流程。这样,通过“锚定-分级压缩-校验”这套体系,就能保证语义特征在整个生命周期里保持稳定。

02 找得到:跨模态证据的“大海捞针”与检索架构

岑峰:

好了,证据存住了,但更大的挑战在后头。玺谕在MemLens里做了一个惊人的实验:只要人工找对证据直接喂给模型,准确率立马飙到90%以上。这是不是说明,行业过去太迷信长文本推理,而忽略了跨模态检索才是真正的命门?

任玺谕:

完全正确。我们把这个现象量化到了极致。实验显示,多模态跨会话推理是目前所有系统的天花板,大多数系统得分低于30%。而一旦我们替模型完成“找证据”这一步,GPT-4o和Gemini Pro 1.5的准确率直接飙到90%以上。这说明真正的挑战压根儿不在推理,而是在检索。我们进一步把检索问题分为两类:一类是根本没找到证据,另一类是找对了证据但依然答错。这说明“找得到”和“想得清”是两码事,能被分开诊断。

岑峰:

很多人觉得,只要窗口无限拉长,让模型自己去看所有历史不就行了?但MemLens发现,当历史长达128K时,准确率反而下降了13%。为什么这种现象在多模态场景下更严重?

任玺谕:

长窗口其实是个陷阱。它解决了“装得下”,解决不了“找得准”。窗口一长,模型就变得“虚假自信”,拒答能力显著下降,开始自信地胡说。多模态场景下更严重,原因有二:一是视觉信息占用的Token量极大,几张图就能把信噪比彻底压垮,真实证据被淹没;二是在压缩后的视觉编码上进行检索,比在原始文本上检索要难得多。

岑峰:

张总,既然检索是命门,你们怎么识别用户Query里哪些线索是文本,哪些是图像?

张源:

我们非常认可MemLens这个实验,它用科学的方法论证了基座模型和记忆企业之间是有分工的。即使上下文窗口变得再长,也不代表记忆体验能变好。针对跨模态线索,我们的解法是引入“跨模态意图拆解”。简单说,就是把用户的一个问题,先拆成一个多维度的“意图图谱”。比如用户问:“上次在某咖啡馆拍的穿蓝衣服照片里,我手里拿着什么?”系统会先拆解出“咖啡馆”是文本线索,“蓝衣服”是视觉线索,“上次”是时序线索。接着,进行“线索模态路由”,文本线索走语义索引,图像特征走视觉索引,时间属性走时间轴。这就避免了盲目遍历所有数据,效率直接提升一个量级。

岑峰:

你们有没有遇到过特别有意思或者古怪的测试问题?

张源:

我们做过一个“找钥匙”的趣味测试。用户问家里一段监控视频里,钥匙最后出现在哪。系统识别出钥匙曾出现在一个穿黑衣服女生的手里,后来她坐在沙发上,钥匙不小心滑进了沙发缝。最终AI不仅给出了时间,还建议用户去沙发附近找。这种涉及复杂空间互动和时序逻辑的问题,正是我们想攻克的方向。

岑峰:

面对长历史带来的“检索过敏”,你们有什么独特的算法能防止模型被无关内容带偏?

张源:

我们的抗过敏方案是一套“三级防御体系”。第一级,在上游做“意图驱动的多级召回”。传统检索是图书馆里一本书一本书地遍历,我们是在用户问“去年生日蛋糕”时,直接锁定去年生日的时间段,只在这个范围内召回,从源头减少噪声。第二级,做“相关性重排序和负样本对比”。系统会额外用一个多模态模型来判断,召回的内容是不是真的和用户意图相关。第三级,是“证据可信度校验”。模型在开始推理前,会先给证据打个分,只有高于阈值才会被引用。如果没找到可靠证据,就明确回答不知道。这套体系从源头缩小范围,再精准排序,最后做校验,确保了模型不会被噪声带偏。

03 想的清:终结“逻辑雪球”与状态更新的信任挑战

岑峰:

拒答和“自信地胡说”是行业老话题了。但在长记忆场景下,这个问题变了味。最典型的就是“状态更新失败”。用户口味都变了,AI还固守旧记忆。这种“想不清”导致的“自信胡说”,是用户最难接受的。玺谕,你定义的“状态更新失败”,反映了模型训练的哪些偏差?

任玺谕:

比如用户说“我从喜欢苹果,到香蕉,再到猕猴桃”,模型得能准确找到链条的最后一环。失败的原因通常是“过期检索”。检索算法基于语义相似度,它会把所有提到水果的地方都捞回来,但模型分不清哪个是当下的状态。这在现实产品里很危险,比如用户搬到上海,AI还推荐北京的餐厅。根源在于,模型训练的目标是答出“通用事实”,追求博学和自信。但在记忆系统里,用户的私有动态状态才是唯一“事实”。当用户的表达和模型的常识冲突时,模型的本能是相信常识,而不是相信用户。在记忆系统里,模型的先验知识,有时反而是必须克服的“累赘”。

任玺谕:

另一个现象也很值得关注:模型在接入记忆后,拒答能力反而退化了。原本不会的就说不懂,现在有了记忆反而开始瞎编。我们做实验发现,很多模型在针对记忆进行微调后,拒答率从70%直接跌到10%以下。原因很简单,因为目前的微调只奖励“答对”,从来没有设置过“不知道时正确拒答”的奖励。模型被训成了不惜一切代价也要给出答案的模式,这非常危险。

岑峰:

张总,针对这种新旧习惯冲突,你们在工程上是如何处理的?

张源:

我们的核心原则是:记忆系统必须以用户为中心。我们把记忆单元打上三类标签:时间戳、置信度和证据链。我们非常强调时间维度。策略是建立一个“时序优先”与“证据加权”的仲裁规则。首先,时间戳越新,权重越高;其次,用户亲口说的(直接证据)大于图片线索,图片线索又大于多跳推断。比如用户说“我不爱吃苹果了”,这比系统观察到“用户很久没吃苹果”要可靠得多。在推理时,模型会校验是否存在新旧冲突,自动选择最新、最可靠的版本。

但这个问题还没彻底解决。比如我平常极度爱吃辣,但最近感冒了必须忌口。如果系统简单地用“最近不吃辣”覆盖掉长期偏好,病好了它还推荐清淡饮食,这在一个更长的时间尺度上看,也是一种错误。我们正在研究如何剥离“长期特质”与“短期波动”,这需要学术界的更多突破。

岑峰:

针对“拒答”这条底线,当你们服务政府或零售这类严谨客户时,如何确保AI能优雅地拒绝,而不是编造记忆?

张源:

对于严谨行业,对幻觉的容忍度几乎为零。我们的核心解法是“检索证据与模型生成解耦”。第一,空结果识别。检索引擎会给每次召回打分,如果分数低于阈值,系统直接判定为无有效证据。第二,证据驱动生成。模型的推理模式被严格限制在证据链内,绝不允许自由发挥。如果没证据,模型必须触发预设的拒绝话术,引导用户提供更多信息。第三,审计合规兜底。我们还会记录每一次检索和回答的完整日志,万一出错,也能回溯是哪个环节出了问题。说到底,不能寄希望于模型的“自觉”,必须靠工程硬约束。未来的产业需要的不是一个无所不知的聪明模型,而是一个言必有据的可信系统。

04 未来展望:混合架构的产业分工

岑峰:

过去一小时,我们深入探讨了多模态长记忆这三大难题。我很认同一种比喻:长记忆的终局,应该是长上下文与记忆智能体的混合体。基座模型像处理瞬时信息的“大脑皮层”,而记忆框架是管理长程信息的“海马体”。请问两位,这种“皮层+海马体”的分工,在2026年可能会形成什么样的标准或生态?

任玺谕:

这个比喻非常贴切。我们的实验数据也支持这种分工。我预测2026年会形成清晰的接口分层。基座模型厂商专注于保证窗口内“看得准”,记忆厂商则专注于保证长周期内“存得住、找得回”。目前两者之间的“带宽”,也就是视觉证据如何标准化交接、多模态证据如何跨层级对齐,还是一个待填的技术空白。

张源:

我非常认同。基座模型再聪明,面对海量数据时也是个“没有记忆的空白脑袋”。记忆企业的核心使命,就是让这些聪明的大脑在处理复杂任务时,能随时关联到以往的历史记录,并且始终忠于用户的个人记忆。

岑峰:

从学术角度,要实现从“单帧记忆”向“连续动作序列记忆”的跨越,模型层需要什么突破?

任玺谕:

实际上单帧的保真问题至今没被完美解决,连续动作的挑战会大一个量级。我认为模型层需要三方面的突破:首先是开发能精准保留动作语义的时序视觉表示,而不是存像素;其次是将动作和事件本身作为“一等记忆”进行结构化存储;最后是实现跨帧的实体追踪与状态延续。

岑峰:

展望未来12个月,有哪些多模态记忆的“坑”最有望通过工程技巧填平?

张源:

我认为有三件事最有希望。第一,多模态证据的“对齐与结构化”。未来行业将普遍采用“先锚定、再存储”的范式,用强模型在写入时就把关键证据锁定在语义空间。第二,“跨模态检索架构”的成熟。通过意图拆解和定向路由,仅靠工程优化就能把检索准确率从20%-30%提升到60%以上的可用线。第三,“记忆冲突与状态更新”的系统化解决。带时间戳、置信度和证据链的结构化记忆单元,将成为标配。

岑峰:

填旧坑的过程中,会不会产生新挑战?

张源:

会。具身智能的落地会让矛盾更尖锐。具身记忆管理的不再是对话,而是环境、动作和物体的位移轨迹。如果记忆问题不解决,物理AI在处理复杂任务时的缺陷会暴露得更明显。

任玺谕:

没错。具身场景下,视觉证据密度更高,状态更新更频繁,而且对拒答和可信度的要求近乎苛刻——一个不会说“我不知道”的机器人是会出安全事故的。

岑峰:

感谢玺谕提供的严苛标尺,也感谢张总分享的实战药方。多模态长程记忆从Demo走向可靠产品的路线图,已经愈发清晰了。感谢各位收看本期GAIR Live。

相关下载