首页 > 教程攻略 > ai资讯 >京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

来源：互联网时间：2026-06-24 13:16:06

京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction：让AI从“一问一答”走向“边看边说”

京东这边最近有了新动作——开源了一个叫 JoyAI-VL-Interaction 的实时视频视觉语言交互模型。这可不是那种平平无奇的模型开源，它是全球首个做到全栈开源的 Interaction 模型和系统，并且一上线就获得了 vLLM-Omni 的 day-0 原生支持。

说白了，这个模型让大模型的交互方式发生了根本性转变：从过去那种“你问我答”的被动模式，直接进化到能持续观察视频流、自主判断什么时候该开口、什么时候该保持安静的“边看边说”状态。开发者拿着这套框架，可以快速搭出一个能随时观察环境、自主做判断、即时做出响应的实景AI助手。

与传统模型相比，JoyAI-VL-Interaction 在三个维度上实现了突破：

主动判断，而非被动回答

过去的模型，基本上就是个被动回答问题的角色：用户不开口，它就沉默。但在这个新模型这里，它能持续盯着视频流，自主判断——什么时候该主动说句话，什么时候该识趣地保持沉默。这才是真正的“互动”，而不是简单的“应答”。

实时响应，而非事后总结

传统视频理解的做法通常是先把完整视频上传，然后等模型分析完再给个总结。但问题是，在安防预警、实时翻译、直播解说、操作指导这些场景里，晚几秒，体验和价值都会完全不同。JoyAI-VL-Interaction 是面向正在发生的视频流来设计的——画面一变化，它就能立刻响应。

适时智能体委托，同时保持观察和交互

这个模型还具备后台任务委派能力。当遇到像生成代码、调用工具这类需要复杂推理的任务时，它可以把任务交给后台的大模型或Agent去处理。前台模型继续盯着现场，后台模型去解决复杂任务，等结果返回来再自然地接回对话——分工明确，互不耽误。

从技术架构来看，JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入方式，同时兼容语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。关键组件——ASR、TTS、可视化界面、后台模型、外部工具和业务模块——全部可以按需替换。

这意味着开发者完全可以接入自己的语音服务、Agent、API、业务系统或前端界面。无论是做学术研究，还是改造为安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等实时AI助手，这套框架都能撑得住。

在性能评测方面，JoyAI-VL-Interaction 的表现相当能打。测试覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在58个与视觉触发的主动响应、实时性高度相关的真人盲评案例中，JoyAI-VL-Interaction 对比豆包视频通话助手，总体胜率达到77.6%；对比Gemini视频通话助手，总体胜率更是来到87.9%。

京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction

京东开源实时视频视觉语言交互模型 JoyAI-VL-Interaction