首页 > 教程攻略 > ai资讯 >京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

来源:互联网 时间:2026-06-24 22:18:07

最近,京东悄悄放了个大招——正式开源了实时视频视觉语言交互模型

JoyAI-VL-Interaction

,这是全球首个全栈开源的interaction模型与系统,还拿到了vLLM-Omni的day-0原生支持。说白了,它让大模型从过去那种“你问一句,它答一句”的老套路,直接进化到了“边看边说”的新阶段。开发者拿着这套框架,就能快速搭建一个能持续观察、自主判断、即时响应的实景AI助手。

京东正式开源实时视频视觉语言交互模型JoyAI-VL-Interaction

今天市面上绝大多数的多模态模型,本质上还是回合制游戏——用户上传一张图或一段视频,问个问题,模型才开始吭哧吭哧地输出答案。这种模式在图文问答、视频复盘这些场景里确实够用,可一旦AI要走进真实世界,光有聪明还不够,得学会“在场”。真实世界每分每秒都在变,有些关键时刻错过了就是错过了,根本没机会重来。JoyAI-VL-Interaction干的事,就是让AI像人一样持续“在场”:它边看、边记、边判断,关键时刻主动开口回应,遇到复杂任务还会聪明地交给后台Agent处理。

相比传统模型,这个新模型干了三件不一样的事。

第一,它会主动判断,而不是被动回答。模型持续盯着视频流,自己决定什么时候该说话、什么时候该闭嘴。打个比方,你在监控里设置好“发现火情就报警”,一旦真有火苗冒出来,它立刻自动预警,根本不用你主动去问。第二,它是实时响应,而不是事后总结。所有处理都针对正在发生的视频流,画面一变它就跟着反应。在安防预警、实时翻译、直播解说这些场景里,哪怕晚几秒,体验和价值的差别就是天壤之别。第三,它还懂得适时委托。遇到生成代码、调用工具、复杂推理这类任务,它会甩给后台的大模型或Agent去干,前台继续专心观察现场;后台处理完结果自然接回对话,形成一套“前台实时助手+后台智能大脑”的协作系统。在实时视频流里,模型每秒都会做一次判断——继续观察、保持沉默、主动回应,还是交给后台。“什么时候说话”这件事,不再是靠外部规则硬性触发,而是模型自己学会的。对实时交互来说,会说话很重要,会沉默同样重要。

这次开源可不是只放出一个模型权重就完事了,而是整个技术栈全端出来了:模型权重、交互数据集、训练方案、完整可部署系统,一样不少。系统本身支持摄像头、直播流、监控流等多种视频输入,也自带语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案。而且ASR、TTS、可视化界面、后台模型、外部工具、业务模块这些,全部可以按需替换——开发者完全可以接入自己的语音服务、Agent、API、业务系统或前端界面。这套东西既能拿来做研究,也能直接改造成实打实的AI助手,比如安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助,等等。

最后说说实际表现。在覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说这些真实流式场景的58个真人盲评案例里,JoyAI-VL-Interaction对比豆包视频通话助手,总体胜率77.6%;对比Gemini视频通话助手,总体胜率87.9%。而在监控预警这个场景里,两个基线它都拿到了100%的胜率——这基本就是降维打击了。

相关下载