首页 > 教程攻略 > ai资讯 >京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

来源：互联网时间：2026-06-24 22:18:07

最近，京东悄悄放了个大招——正式开源了实时视频视觉语言交互模型

JoyAI-VL-Interaction

，这是全球首个全栈开源的interaction模型与系统，还拿到了vLLM-Omni的day-0原生支持。说白了，它让大模型从过去那种“你问一句，它答一句”的老套路，直接进化到了“边看边说”的新阶段。开发者拿着这套框架，就能快速搭建一个能持续观察、自主判断、即时响应的实景AI助手。

今天市面上绝大多数的多模态模型，本质上还是回合制游戏——用户上传一张图或一段视频，问个问题，模型才开始吭哧吭哧地输出答案。这种模式在图文问答、视频复盘这些场景里确实够用，可一旦AI要走进真实世界，光有聪明还不够，得学会“在场”。真实世界每分每秒都在变，有些关键时刻错过了就是错过了，根本没机会重来。JoyAI-VL-Interaction干的事，就是让AI像人一样持续“在场”：它边看、边记、边判断，关键时刻主动开口回应，遇到复杂任务还会聪明地交给后台Agent处理。

相比传统模型，这个新模型干了三件不一样的事。

第一，它会主动判断，而不是被动回答。模型持续盯着视频流，自己决定什么时候该说话、什么时候该闭嘴。打个比方，你在监控里设置好“发现火情就报警”，一旦真有火苗冒出来，它立刻自动预警，根本不用你主动去问。第二，它是实时响应，而不是事后总结。所有处理都针对正在发生的视频流，画面一变它就跟着反应。在安防预警、实时翻译、直播解说这些场景里，哪怕晚几秒，体验和价值的差别就是天壤之别。第三，它还懂得适时委托。遇到生成代码、调用工具、复杂推理这类任务，它会甩给后台的大模型或Agent去干，前台继续专心观察现场；后台处理完结果自然接回对话，形成一套“前台实时助手+后台智能大脑”的协作系统。在实时视频流里，模型每秒都会做一次判断——继续观察、保持沉默、主动回应，还是交给后台。“什么时候说话”这件事，不再是靠外部规则硬性触发，而是模型自己学会的。对实时交互来说，会说话很重要，会沉默同样重要。

这次开源可不是只放出一个模型权重就完事了，而是整个技术栈全端出来了：模型权重、交互数据集、训练方案、完整可部署系统，一样不少。系统本身支持摄像头、直播流、监控流等多种视频输入，也自带语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。而且ASR、TTS、可视化界面、后台模型、外部工具、业务模块这些，全部可以按需替换——开发者完全可以接入自己的语音服务、Agent、API、业务系统或前端界面。这套东西既能拿来做研究，也能直接改造成实打实的AI助手，比如安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助，等等。

最后说说实际表现。在覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说这些真实流式场景的58个真人盲评案例里，JoyAI-VL-Interaction对比豆包视频通话助手，总体胜率77.6%；对比Gemini视频通话助手，总体胜率87.9%。而在监控预警这个场景里，两个基线它都拿到了100%的胜率——这基本就是降维打击了。

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

JoyAI-VL-Interaction

相关阅读

相关下载