首页 > 教程攻略 > ai资讯 >AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

来源:互联网 时间:2026-06-30 14:41:11

大模型现在越来越会答题了,这没错。但想象一下,当AI从聊天窗口里走出来,钻进智能眼镜、可穿戴设备,甚至变成你家里的机器人,情况就完全不一样了。用户可能没工夫把需求一字一句说清楚,也不乐意助手动不动就插话。理想的助手,应该能现场读懂你,该出现时出现,不该出声时安静如鸡。

最近,清华大学人工智能学院MEOW Lab联合清华人机交互与普适计算实验室、字节跳动PICO、威斯康辛大学麦迪逊分校等国内外机构,放出了两项新成果——

EgoIntrospect

IPIBench

。前者聚焦AI怎么理解用户的情绪、意图和记忆需求;后者关注在连续视频流中,AI如何判断什么时候该提醒、什么时候该沉默,以及怎么管理多轮任务。两项研究都指向同一个结论:下一代AI助手不能只是更强的答题机器,还得学会读人,并且把握时机,适时互动。

  • 论文标题:EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
  • 论文地址:https://arxiv.org/abs/2605.17262
  • 论文标题:IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams
  • 论文地址:https://arxiv.org/abs/2605.27074

背景:AI从问答系统到协作助手

今年5月,Thinking Machine Lab在文章《Interaction Models: A Scalable Approach to Human-AI Collaboration》里也聊到了类似的转向。文章指出,现在很多AI系统还是基于“用户输入、模型输出”的回合制问答。但真正的协作哪是这样?人和人一起干活时,会停顿、打断、修正,还会根据对方的状态调整插嘴的时机。所以,当AI从问答走向实时协作,模型到底还缺哪些能力?清华团队的这两项研究,正是在这个背景下,分别从用户理解和主动交互两个侧面来回答。

EgoIntrospect:让AI真正理解用户,而不只是看懂画面

过去,多模态大模型已经能识别图像和视频里的物体、动作和场景。但如果AI要变成智能眼镜里的随身助手,理解外部世界只是第一步。好比看到一只狗,用户可能觉得开心,也可能紧张;同样路过一张地图,用户也许只是随便一瞥,也许却希望AI能帮自己记住它。

EgoIntrospect的核心,就是让模型学会从第一视角数据里推断用户的内部状态。研究团队采集了60名参与者、超过180小时的日常记录,数据来自智能眼镜、智能手表、腕带、智能戒指等设备,包含第一视角视频、音频、眼动、生理信号。和传统的视频数据集不同,这项研究特别强调“用户自我标注”——参与者在采集过程中会标记重要时刻,并在事后补充情绪、意图和记忆需求的具体信息。

基于这些数据,EgoIntrospect设计了三类任务。第一类是情感体验,模型要判断哪些片段对用户来说值得记录,并推断特定情境下用户可能产生的情绪及其强度。第二类是交互意图:一方面,模型在被动响应时要判断完成用户请求还需要哪些外部工具;另一方面,在主动交互时,模型要理解什么样的互动对用户有意义、能提供帮助,以及什么时机介入才不会造成打扰。第三类是认知记忆,模型需要区分哪些信息用户可能记得住,哪些信息需要AI协助保存,同时还要明确这类信息应该保存多久。

这样一来,智能助手的评测就不再只是“看懂画面”了。对可穿戴AI而言,第一视角视频不是普通素材,而是用户正在经历的现场;模型要理解的,也不只是物体和动作,还有它们对用户的意义。

IPIBench:AI既要主动帮忙,也要学会适时开口

上面说的EgoIntrospect更关注AI怎么理解用户,而IPIBench则强调AI在互动中如何抓住合适的时机。现实里的智能助手可不能想说就说。提醒太早会显得打扰,提醒太晚又可能错过;更要命的是,如果用户已经取消或改了提醒,模型却还按旧指令触发,那就说明它根本没理解这种持续互动下的任务状态。

所以IPIBench提出了一个面向流式视频场景的交互式主动智能评测基准。传统的视频问答,通常是先把一整段视频交给模型看,然后等它看完再回答问题。但在IPIBench里,视频是不断流入的,用户的指令也可能随时调整。模型只能获取当前时刻之前的视频内容,同时还要在连续输入中完成主动监测、任务管理和即时问答等多项工作。举个例子,在厨房场景里,用户说:“锅里的水开了提醒我。”模型不能立刻回应,也不能等水开过很久才提醒,而要持续观察,在恰当的时刻触发提醒。如果用户随后改口或取消提醒,模型还得及时更新任务状态,避免继续按旧指令响应。

基于这些需求,IPIBench设计了主动监测、主动任务管理,以及即时提问与主动式请求交织三类任务。评测结果表明,目前的多模态大模型在主动触发的稳定性和多轮交互的协调能力上,还存在明显短板。

针对这些问题,研究团队提出了IPI-Agent。它不需要重新训练基础模型,而是在模型外部额外加一层交互调度机制——通过交互意图识别与显式任务记忆管理,把用户输入区分为提问、新增任务与修改/取消任务,并持续维护有效任务及其状态变化,从而实现跨轮次的稳定任务跟踪。同时引入时间门控机制:系统先根据历史任务和近期视频内容生成候选响应,再结合视频内容的变化判断是否真的到了需要触发的时机。

总的来说,IPIBench把对AI助手的评测从“看完视频后答题”推进到“边看、边等、边管理任务”的真实互动过程。对于未来的可穿戴设备、家庭机器人和具身智能系统而言,能否在合适的时候开口,可能和回答问题本身一样重要。

总结与展望:AI助手需要更懂人,也更懂时机

把清华团队的两项研究放在一起看,可以发现AI助手的评测正在从单纯问答走向更真实的互动场景。EgoIntrospect把注意力放回用户自身,强调去理解用户的情绪、意图和记忆;IPIBench则进一步延伸到主动交互过程,考察提醒、沉默、任务更新以及多轮协调等表现。

在智能眼镜、可穿戴设备和具身智能等场景里,AI助手面对的往往不再是一个坐在屏幕前等着提问的人,而是一个正在行动、会有情绪起伏、会犹豫、也会临时改变主意的人。正因如此,下一代AI助手的关键不只是生成更流畅的答案,还要更细致地理解用户,更稳妥地管理任务,更有分寸地介入。