字节跳动开源Lance 3B:用一个“脑子”同时搞定图视理解与生成
来源:互联网
时间:2026-05-30 17:50:28
近日,字节跳动研究院正式开源了其原生统一多模态大模型——
Lance

当整个AI行业还在热衷于堆砌千亿参数,或者将不同功能的模型像“拼积木”一样组合时,Lance的出现,无疑带来了一种截然不同的思路。它最引人注目的地方在于两点:其一,它以
仅30亿激活参数的极致轻量化体量
核心看点:
拒绝“拼接”,从零训练起就将图像/视频的理解、生成与跨模态编辑塞进同一个模型体系。原生统一:
单个模型完美闭环 $X rightarrow T$(文/视理解)、$X rightarrow I$(图生成/编辑)、$X rightarrow V$(视频生成/编辑)三大核心输出任务。全能跑通:
采用极其友好的开源白嫖:
,权重已全面上线 Hugging Face,平民级128张 A100算力预算即可跑通全程。Apache2.0协议
技术解密:它是如何让相反的需求“同频共振”的?
在传统AI架构里,模型的“理解”和“生成”能力,常常被看作一对矛盾体。理解任务要求模型过滤细节、提炼高层语义;而生成任务恰恰相反,需要它精准地还原纹理、结构和动态等底层连续信息。想让一个模型同时精通这两件事,难度可想而知。
那么,Lance是怎么做到的呢?答案在于一套精妙的“共享上下文+能力解耦并行”设计。
1. 统一交错序列与双流专家架构
所有输入,无论是文本、图像还是视频,首先会被打散并转化为统一的“交错序列”。随后,这个序列被送入一个
双流专家架构
- 借助
理解侧:
的嵌入层与 ViT 编码器,精准提取高层次的语义视觉标记。Qwen2.5-VL
- 则依靠
生成侧:
强大的3D因果VAE进行压缩编码,实现了高达 $16times$ 的空间下采样和 $4times$ 的时间下采样,最大程度保留了生成所需的细腻动态信息。Wan2.2
2. MaPE(模态感知旋转位置编码)
当一条长序列里混杂了图文视多种信息时,模型很容易产生“边界混淆”的幻觉。为此,Lance独创了
MaPE机制
整个流程可以概括为:[统一交错序列] → [MaPE模态边界隔离] → [双流专家架构(MoE)]。
4阶段极限炼丹:128张显卡打完的“精益战役”
相比于大厂们动辄上万张显卡的“暴力训练”,Lance的整个训练过程堪称一场“精益战役”,被严格控制在
最多128张GPU的预算内
- —— 用10亿图文对和1.4亿视频文本对,打下坚实的多模态基础。
阶段1:预训练(1.5T Tokens)
- —— 引入编辑、主体驱动生成等数据,激活模型的多任务协同能力。
阶段2:持续训练(300B Tokens)
- —— 注入大量人类指令,死磕指令遵循和视觉身份的一致性。
阶段3:监督微调 SFT(72B Tokens)
- —— 这一步有个罕见操作:搬出了
阶段4:强化学习 RL(GRPO 算法)
。目的非常明确,就是专门针对AI生成图片时“文字渲染错误”和“图文内容对不齐”这两大顽疾,进行针对性优化。PaddleOCR作为奖励模型
战绩彪炳:3B 战神跨界狂虐7B 巨兽
得益于跨任务的数据协同效应——模型在学生成时加深了对内容的理解,在学理解时又反哺了生成的空间感——仅有30亿参数的Lance,在各项基准测试中展现出了惊人的“越级”表现:
- 拿下
视频生成(VBench):
,不仅超越了同类全能模型TUNA(84.06分),甚至超过了HunyuanVideo(83.33分)和Wan2.1-T2V(83.69分)等纯视频生成大模型。85.11分
- 总分达到
图像生成(GenEval):
,稳稳站在全球开源梯队的前列。0.90
- 斩获
视频理解(MVBench):
,将参数量是自己两倍多的专用理解模型Show-o2(7B,55.7分)远远甩开。62.0分
行业震荡:多模态应用部署成本将迎断崖式下跌
Lance的开源,对于当前火爆的
AI短剧、智能体协作、互动媒体
过去,想要开发一个既能理解剧本、又能生成分镜,还能根据反馈实时修改画面并保持角色一致性的AI工具,开发者不得不在后台同时挂载、调度并“缝合”多个大模型——一个负责语义理解,一个负责图片生成,还有一个负责视频时序。这套流程不仅导致系统复杂卡顿,光是让多个模型之间对齐协作,就足以让人崩溃。
现在,