首页 > 教程攻略 > ai资讯 >Wan-Streamer - 阿里开源的实时全双工多模态基础模型

Wan-Streamer - 阿里开源的实时全双工多模态基础模型

来源:互联网 时间:2026-06-30 15:31:05

Wan-Streamer是什么

简单来说,Wan-Streamer是阿里达摩院开源的一个端到端实时全双工多模态基础模型。它最大的特点,就是通过一个统一的因果Transformer架构,把文本、音频、视频这些不同模态的输入输出Token全部整合到同一条因果序列里。这意味着它能实现真正的亚秒级实时双向视频交互——模型侧响应延迟只有200毫秒,端到端总延迟控制在550毫秒,稳定输出25FPS的同步音视频。听起来很抽象?没关系,接下来我们把它的方方面面拆开看。

Wan-Streamer的主要功能

  • 实时音视频对话

    :支持用户与AI数字人进行双向视频通话,AI能同步输出语音和面部表情,而不是干巴巴地只说话。
  • 全双工交互

    :这可不是那种“你问我答、等你说完”的半双工模式。用户可以随时打断,AI也能主动提问,对话节奏和自然度都接近真人。
  • 多模态输入理解

    :真正意义上的“眼观六路耳听八方”——能同时理解用户的视频画面、语音和文字输入,信息维度更丰富。
  • 流式分片生成

    :采用160ms的短时流式分片,边接收信息边生成反馈,不需要等全帧数据都拿到才开始处理。
  • 长时序一致性

    :通过全局KV上下文缓存,保证在长时间对话中,数字人的人物形象、语气都能保持稳定统一,不会聊着聊着就变了一张脸。

Wan-Streamer的技术原理

当然,要实现上面的功能,技术底子必须扎实。几个关键设计值得重点关注:

  • 统一单Transformer流式架构

    :把用户的画面、人声、文字输入和AI的语音、表情、字幕输出,全部交错排列成一条因果Token流。文本部分采用自回归预测,音视频部分则通过流匹配条件联合生成。
  • 全因果技术栈设计

    :从编码器、解码器、VAE到注意力层,整个技术栈都遵循因果约束,只使用历史时序信息来预测下一个单元,核心块的因果注意力限制了未来Token不可见,确保了信息处理的实时性。
  • 三段式训练流程

    :多任务预训练阶段混合图文语音对话数据;全双工微调阶段学习倾听、插话、停顿等交互行为;流式蒸馏阶段则将大教师模型轻量化,并采用滚动自强制策略优化小模型。
  • Thinker-Performer双GPU推理

    :一个叫Thinker,负责处理用户音视频编码与上下文更新;另一个叫Performer,负责执行流匹配音视频去噪生成。两者共享上下文,并行执行,各司其职。

如何使用Wan-Streamer

需要注意的是,截至当前,Wan-Streamer仅发布了论文与项目官网的演示Demo,完整的代码和模型权重尚未开源,所以暂时还无法进行本地部署。耐心等待后续更新吧。

Wan-Streamer的核心优势

  • 超低延迟

    :模型侧200ms响应,端到端仅550ms,远低于行业普遍1秒以上的水平。你可能会问,200ms有多快?这么说吧,从一个问题脱口而出到AI开始回应,几乎在同一瞬间。
  • 端到端一体化

    :单一模型完成感知、理解、生成全流程,不再需要ASR、LLM、TTS、渲染等多个模块拼凑拼接,架构简洁,问题也少。
  • 全双工实时交互

    :支持边听边回应、中途打断,交互的自然度完全可以媲美真人对话。
  • 音视频同步

    :语音与面部动作是同步约束生成的,不需要后期再去对齐修复,口型零错位,这才是真正意义上的“从声音到表情,一步到位”。
  • 长对话稳定性

    :全局KV上下文保证了人物容貌与语气在长时间对话中不漂移,不会出现聊到一半就变了个人。

Wan-Streamer的项目地址

  • 项目官网

    :https://wan-streamer.com/
  • arXiv技术论文

    :https://arxiv.org/pdf/2606.25041

Wan-Streamer的同类竞品对比

从技术指标来看,Wan-Streamer和目前市面上另一款典型产品——GPT-4o Realtime,存在不少差异。直接上一张对比表会更直观:

对比维度

Wan-Streamer

GPT-4o Realtime

开发方

阿里达摩院OpenAI

视频输入

✅ 支持✅ 支持

同步视频输出

✅ 数字人视频❌ 仅语音

全双工交互

✅ 实时打断/插话⚠️ 部分支持

端到端架构

✅ 单一Transformer❌ ASR+LLM+TTS 拼接

模型响应延迟

200ms

230ms

端到端总延迟

~0.55s

~0.8s

渲染延迟

含端到端内不含(仅语音)

口型同步

✅ 原生同步生成❌ 无视频输出

长时序一致性

✅ 全局KV缓存⚠️ 依赖外部系统

当前分辨率

192p(原型)无视频输出

从表格能看出来,Wan-Streamer在全双工交互、视频输出与口型同步方面有明显优势,尤其在多模态视频对话的一致性上领先。当然,GPT-4o Realtime在纯语音场景下仍然有它的积累。

Wan-Streamer的应用场景

  • 虚拟客服

    :银&行、电商等场景可以部署一个面对面的实时视频咨询助手,而不是冷冷的语音菜单。
  • 直播互动

    :AI主播可以实时回应观众弹幕与语音提问,互动体验提升不止一个档次。
  • AI陪伴

    :情感陪伴数字人支持实时视频聊天,在远程陪伴或心理疏导领域有很大想象空间。
  • 游戏NPC

    :交互式游戏角色能够与玩家进行实时视频对话,游戏沉浸感自然更强。
  • 在线教育

    :AI虚拟教师进行实时视频答疑与个性化辅导,远胜于冷冰冰的文字答疑。