首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >字节跳动开源Lance 3B：用一个“脑子”同时搞定图视理解与生成

字节跳动开源Lance 3B：用一个“脑子”同时搞定图视理解与生成

来源：互联网时间：2026-05-30 17:50:28

近日，字节跳动研究院正式开源了其原生统一多模态大模型——

Lance

。

当整个AI行业还在热衷于堆砌千亿参数，或者将不同功能的模型像“拼积木”一样组合时，Lance的出现，无疑带来了一种截然不同的思路。它最引人注目的地方在于两点：其一，它以

仅30亿激活参数的极致轻量化体量

，实现了全功能覆盖；其二，它从根本上打破了横亘在“视觉理解模型”与“视觉生成模型”之间的那堵技术高墙。

核心看点:

原生统一:
拒绝“拼接”，从零训练起就将图像/视频的理解、生成与跨模态编辑塞进同一个模型体系。

全能跑通:
单个模型完美闭环 $X rightarrow T$（文/视理解）、$X rightarrow I$(图生成/编辑)、$X rightarrow V$(视频生成/编辑)三大核心输出任务。

开源白嫖:
采用极其友好的
Apache2.0协议
，权重已全面上线 Hugging Face，平民级128张 A100算力预算即可跑通全程。

技术解密:它是如何让相反的需求“同频共振”的?

在传统AI架构里，模型的“理解”和“生成”能力，常常被看作一对矛盾体。理解任务要求模型过滤细节、提炼高层语义；而生成任务恰恰相反，需要它精准地还原纹理、结构和动态等底层连续信息。想让一个模型同时精通这两件事，难度可想而知。

那么，Lance是怎么做到的呢？答案在于一套精妙的“共享上下文+能力解耦并行”设计。

1. 统一交错序列与双流专家架构

所有输入，无论是文本、图像还是视频，首先会被打散并转化为统一的“交错序列”。随后，这个序列被送入一个

双流专家架构

。你可以把它想象成一个拥有两套独立“脑回路”的系统：一套专门负责“理解”，另一套则专注于“生成”。通过智能路由，让合适的专家处理擅长的任务，从而完美化解了能力冲突。

理解侧:
借助
Qwen2.5-VL
的嵌入层与 ViT 编码器，精准提取高层次的语义视觉标记。
生成侧:
则依靠
Wan2.2
强大的3D因果VAE进行压缩编码，实现了高达 $16times$ 的空间下采样和 $4times$ 的时间下采样，最大程度保留了生成所需的细腻动态信息。

2. MaPE（模态感知旋转位置编码）

当一条长序列里混杂了图文视多种信息时，模型很容易产生“边界混淆”的幻觉。为此，Lance独创了

MaPE机制

。它的原理很巧妙：通过为不同模态的信息组添加固定的时间偏移量，在不破坏图像内部空间结构和视频时间顺序的前提下，让模型能清晰地区分不同信息的边界。

整个流程可以概括为：[统一交错序列] → [MaPE模态边界隔离] → [双流专家架构（MoE）]。

4阶段极限炼丹:128张显卡打完的“精益战役”

相比于大厂们动辄上万张显卡的“暴力训练”，Lance的整个训练过程堪称一场“精益战役”，被严格控制在

最多128张GPU的预算内

。整个过程分为四个环环相扣的阶段：

阶段1:预训练（1.5T Tokens）
—— 用10亿图文对和1.4亿视频文本对，打下坚实的多模态基础。
阶段2:持续训练（300B Tokens）
—— 引入编辑、主体驱动生成等数据，激活模型的多任务协同能力。
阶段3:监督微调 SFT（72B Tokens）
—— 注入大量人类指令，死磕指令遵循和视觉身份的一致性。
阶段4:强化学习 RL（GRPO 算法）
—— 这一步有个罕见操作：搬出了
PaddleOCR作为奖励模型
。目的非常明确，就是专门针对AI生成图片时“文字渲染错误”和“图文内容对不齐”这两大顽疾，进行针对性优化。

战绩彪炳:3B 战神跨界狂虐7B 巨兽

得益于跨任务的数据协同效应——模型在学生成时加深了对内容的理解，在学理解时又反哺了生成的空间感——仅有30亿参数的Lance，在各项基准测试中展现出了惊人的“越级”表现：

视频生成（VBench）:
拿下
85.11分
，不仅超越了同类全能模型TUNA（84.06分），甚至超过了HunyuanVideo（83.33分）和Wan2.1-T2V（83.69分）等纯视频生成大模型。
图像生成（GenEval）:
总分达到
0.90
，稳稳站在全球开源梯队的前列。
视频理解（MVBench）:
斩获
62.0分
，将参数量是自己两倍多的专用理解模型Show-o2（7B，55.7分）远远甩开。

行业震荡:多模态应用部署成本将迎断崖式下跌

Lance的开源，对于当前火爆的

AI短剧、智能体协作、互动媒体

等赛道而言，无异于一场“降维打击”。

过去，想要开发一个既能理解剧本、又能生成分镜，还能根据反馈实时修改画面并保持角色一致性的AI工具，开发者不得不在后台同时挂载、调度并“缝合”多个大模型——一个负责语义理解，一个负责图片生成，还有一个负责视频时序。这套流程不仅导致系统复杂卡顿，光是让多个模型之间对齐协作，就足以让人崩溃。

现在，

Lance 3B用一个“大脑”就实现了“左眼看、右眼编、双手创”的全流程

。其极低的参数量，意味着无论是在企业端侧还是服务器端，部署成本、推理延迟和算力消耗都将迎来断崖式下跌。目前，该模型的公测环境要求仅为Python 3.10+、CUDA 12.4+，以及最低40GB显存，一张消费级显卡或轻量服务器即可驱动。字节跳动这波操作，无疑为2026年下半场的AIGC工业化量产，注入了一针强心剂。

字节跳动开源Lance 3B：用一个“脑子”同时搞定图视理解与生成

Lance

仅30亿激活参数的极致轻量化体量

核心看点:

原生统一:

全能跑通:

开源白嫖:

Apache2.0协议

技术解密:它是如何让相反的需求“同频共振”的?

1. 统一交错序列与双流专家架构

双流专家架构

理解侧:

Qwen2.5-VL

生成侧:

Wan2.2

2. MaPE（模态感知旋转位置编码）

MaPE机制

4阶段极限炼丹:128张显卡打完的“精益战役”

最多128张GPU的预算内

阶段1:预训练（1.5T Tokens）

阶段2:持续训练（300B Tokens）

阶段3:监督微调 SFT（72B Tokens）

阶段4:强化学习 RL（GRPO 算法）

PaddleOCR作为奖励模型

战绩彪炳:3B 战神跨界狂虐7B 巨兽

视频生成（VBench）:

85.11分

图像生成（GenEval）:

0.90

视频理解（MVBench）:

62.0分

行业震荡:多模态应用部署成本将迎断崖式下跌

AI短剧、智能体协作、互动媒体

Lance 3B用一个“大脑”就实现了“左眼看、右眼编、双手创”的全流程

相关阅读

相关下载