京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction
来源:互联网
时间:2026-06-24 13:16:06
京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction:让AI从“一问一答”走向“边看边说”
京东这边最近有了新动作——开源了一个叫 JoyAI-VL-Interaction 的实时视频视觉语言交互模型。这可不是那种平平无奇的模型开源,它是全球首个做到全栈开源的 Interaction 模型和系统,并且一上线就获得了 vLLM-Omni 的 day-0 原生支持。
说白了,这个模型让大模型的交互方式发生了根本性转变:从过去那种“你问我答”的被动模式,直接进化到能持续观察视频流、自主判断什么时候该开口、什么时候该保持安静的“边看边说”状态。开发者拿着这套框架,可以快速搭出一个能随时观察环境、自主做判断、即时做出响应的实景AI助手。
与传统模型相比,JoyAI-VL-Interaction 在三个维度上实现了突破:
主动判断,而非被动回答
过去的模型,基本上就是个被动回答问题的角色:用户不开口,它就沉默。但在这个新模型这里,它能持续盯着视频流,自主判断——什么时候该主动说句话,什么时候该识趣地保持沉默。这才是真正的“互动”,而不是简单的“应答”。
实时响应,而非事后总结
传统视频理解的做法通常是先把完整视频上传,然后等模型分析完再给个总结。但问题是,在安防预警、实时翻译、直播解说、操作指导这些场景里,晚几秒,体验和价值都会完全不同。JoyAI-VL-Interaction 是面向正在发生的视频流来设计的——画面一变化,它就能立刻响应。
适时智能体委托,同时保持观察和交互
这个模型还具备后台任务委派能力。当遇到像生成代码、调用工具这类需要复杂推理的任务时,它可以把任务交给后台的大模型或Agent去处理。前台模型继续盯着现场,后台模型去解决复杂任务,等结果返回来再自然地接回对话——分工明确,互不耽误。
从技术架构来看,JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入方式,同时兼容语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。关键组件——ASR、TTS、可视化界面、后台模型、外部工具和业务模块——全部可以按需替换。
这意味着开发者完全可以接入自己的语音服务、Agent、API、业务系统或前端界面。无论是做学术研究,还是改造为安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等实时AI助手,这套框架都能撑得住。
在性能评测方面,JoyAI-VL-Interaction 的表现相当能打。测试覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在58个与视觉触发的主动响应、实时性高度相关的真人盲评案例中,JoyAI-VL-Interaction 对比豆包视频通话助手,总体胜率达到77.6%;对比Gemini视频通话助手,总体胜率更是来到87.9%。
