首页 > 教程攻略 > ai资讯 >AI助手不该只等人提问：清华团队两项新研究，探索理解用户与适时互动

AI助手不该只等人提问：清华团队两项新研究，探索理解用户与适时互动

来源：互联网时间：2026-06-30 14:41:11

大模型现在越来越会答题了，这没错。但想象一下，当AI从聊天窗口里走出来，钻进智能眼镜、可穿戴设备，甚至变成你家里的机器人，情况就完全不一样了。用户可能没工夫把需求一字一句说清楚，也不乐意助手动不动就插话。理想的助手，应该能现场读懂你，该出现时出现，不该出声时安静如鸡。

最近，清华大学人工智能学院MEOW Lab联合清华人机交互与普适计算实验室、字节跳动PICO、威斯康辛大学麦迪逊分校等国内外机构，放出了两项新成果——

EgoIntrospect

和

IPIBench

。前者聚焦AI怎么理解用户的情绪、意图和记忆需求；后者关注在连续视频流中，AI如何判断什么时候该提醒、什么时候该沉默，以及怎么管理多轮任务。两项研究都指向同一个结论：下一代AI助手不能只是更强的答题机器，还得学会读人，并且把握时机，适时互动。

论文标题：EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning
论文地址：https://arxiv.org/abs/2605.17262

论文标题：IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams
论文地址：https://arxiv.org/abs/2605.27074

背景：AI从问答系统到协作助手

今年5月，Thinking Machine Lab在文章《Interaction Models: A Scalable Approach to Human-AI Collaboration》里也聊到了类似的转向。文章指出，现在很多AI系统还是基于“用户输入、模型输出”的回合制问答。但真正的协作哪是这样？人和人一起干活时，会停顿、打断、修正，还会根据对方的状态调整插嘴的时机。所以，当AI从问答走向实时协作，模型到底还缺哪些能力？清华团队的这两项研究，正是在这个背景下，分别从用户理解和主动交互两个侧面来回答。

EgoIntrospect：让AI真正理解用户，而不只是看懂画面

过去，多模态大模型已经能识别图像和视频里的物体、动作和场景。但如果AI要变成智能眼镜里的随身助手，理解外部世界只是第一步。好比看到一只狗，用户可能觉得开心，也可能紧张；同样路过一张地图，用户也许只是随便一瞥，也许却希望AI能帮自己记住它。

EgoIntrospect的核心，就是让模型学会从第一视角数据里推断用户的内部状态。研究团队采集了60名参与者、超过180小时的日常记录，数据来自智能眼镜、智能手表、腕带、智能戒指等设备，包含第一视角视频、音频、眼动、生理信号。和传统的视频数据集不同，这项研究特别强调“用户自我标注”——参与者在采集过程中会标记重要时刻，并在事后补充情绪、意图和记忆需求的具体信息。

基于这些数据，EgoIntrospect设计了三类任务。第一类是情感体验，模型要判断哪些片段对用户来说值得记录，并推断特定情境下用户可能产生的情绪及其强度。第二类是交互意图：一方面，模型在被动响应时要判断完成用户请求还需要哪些外部工具；另一方面，在主动交互时，模型要理解什么样的互动对用户有意义、能提供帮助，以及什么时机介入才不会造成打扰。第三类是认知记忆，模型需要区分哪些信息用户可能记得住，哪些信息需要AI协助保存，同时还要明确这类信息应该保存多久。

这样一来，智能助手的评测就不再只是“看懂画面”了。对可穿戴AI而言，第一视角视频不是普通素材，而是用户正在经历的现场；模型要理解的，也不只是物体和动作，还有它们对用户的意义。

IPIBench：AI既要主动帮忙，也要学会适时开口

上面说的EgoIntrospect更关注AI怎么理解用户，而IPIBench则强调AI在互动中如何抓住合适的时机。现实里的智能助手可不能想说就说。提醒太早会显得打扰，提醒太晚又可能错过；更要命的是，如果用户已经取消或改了提醒，模型却还按旧指令触发，那就说明它根本没理解这种持续互动下的任务状态。

所以IPIBench提出了一个面向流式视频场景的交互式主动智能评测基准。传统的视频问答，通常是先把一整段视频交给模型看，然后等它看完再回答问题。但在IPIBench里，视频是不断流入的，用户的指令也可能随时调整。模型只能获取当前时刻之前的视频内容，同时还要在连续输入中完成主动监测、任务管理和即时问答等多项工作。举个例子，在厨房场景里，用户说：“锅里的水开了提醒我。”模型不能立刻回应，也不能等水开过很久才提醒，而要持续观察，在恰当的时刻触发提醒。如果用户随后改口或取消提醒，模型还得及时更新任务状态，避免继续按旧指令响应。

基于这些需求，IPIBench设计了主动监测、主动任务管理，以及即时提问与主动式请求交织三类任务。评测结果表明，目前的多模态大模型在主动触发的稳定性和多轮交互的协调能力上，还存在明显短板。

针对这些问题，研究团队提出了IPI-Agent。它不需要重新训练基础模型，而是在模型外部额外加一层交互调度机制——通过交互意图识别与显式任务记忆管理，把用户输入区分为提问、新增任务与修改/取消任务，并持续维护有效任务及其状态变化，从而实现跨轮次的稳定任务跟踪。同时引入时间门控机制：系统先根据历史任务和近期视频内容生成候选响应，再结合视频内容的变化判断是否真的到了需要触发的时机。

总的来说，IPIBench把对AI助手的评测从“看完视频后答题”推进到“边看、边等、边管理任务”的真实互动过程。对于未来的可穿戴设备、家庭机器人和具身智能系统而言，能否在合适的时候开口，可能和回答问题本身一样重要。