Bernini - 字节跳动开源的统一视频生成与编辑框架
当视频生成遇见“先理解、再动手”
视频生成与编辑领域,最近出现了一个值得关注的新框架——Bernini。它来自字节跳动的开源项目,核心思路其实很简单:把“理解指令”和“生成画面”这两件事分开做。要知道,过去很多视频模型之所以让人头疼,恰恰是因为它们经常“听不懂人话”——你说往左,它偏往右;你说改背景,它把整个画面都换了。
Bernini采用了一种两阶段解耦架构:多模态大模型(MLLM)负责语义规划,Diffusion Transformer(DiT)负责视觉渲染。通俗点说,就是先让模型想清楚“要拍什么”,再让它动手“画出来”。目前,它的推理代码和权重已经全部开源,支持文本/图像生成视频、环境编辑、视角调整、动作编辑,甚至还能把多张互不相关的参考图组合成同一个视频角色。
主要功能:从生成到编辑,一个框架全搞定
- :支持从文本提示或参考图像直接生成视频,单图、多元素组合图、多角度参考图都能处理。
文本/图像生成视频
- :环境、视角、焦点、动作——四种编辑方向全覆盖。
视频编辑
- :把指定的物体、纹理或风格精准融入视频——主体参考图、材质参考图、风格参考图都可以作为“引子”。
参考引导编辑
- :把海报或视频填入画面中的屏幕、招牌等区域,且能跟随镜头移动,保持透视和时序稳定。这就好比在实拍画面里“贴”上一块虚拟屏幕,看起来还挺自然的。
图像/视频植入
- :把几张完全不搭边的参考图整合成同一个视频角色,或者基于同一场景的关键帧生成连续平移镜头。
多元素组合
技术原理:解耦,才是关键
Bernini的技术架构,最值得关注的就是那个“两阶段解耦”。
第一阶段,多模态大语言模型(MLLM)充当“语义规划器”(Semantic Planner)。它会在ViT嵌入空间中预测目标语义表示——说白了,就是负责理解文本指令、分析源视频和参考素材,然后规划出“最终画面应该长什么样”。
第二阶段,Diffusion Transformer(DiT)充当“渲染器”(Renderer)。它在VAE潜在空间里执行流匹配去噪,把规划好的语义转化成高质量的视频帧。值得一提的是,在编辑任务中,源视频的VAE特征会被注入进来,这样非编辑区域的细节就能保留下来,避免“一改全改”。
此外,还有两个设计亮点值得一提:
- :当多张参考图、源视频和目标输出被串联成一个统一序列时,不同片段的token可能共享相同的时空坐标。如果直接处理,模型就会“晕”——分不清哪个token来自哪个来源。SA-3D RoPE的做法是为每个视觉片段分配一个segment索引,整合到旋转位置编码中,让模型既能区分不同来源,又能保留原始的时空建模特性。
Segment-Aware 3D RoPE(SA-3D RoPE)
- :Planner会在潜在空间中进行思维链推理,增强复杂编辑场景下的语义保真度。训练分三阶段进行——Planner预训练、Renderer预训练、最后两者轻度联合训练,既保留了各模块的预训练优势,又维持了整体效率。
思维链推理与三阶段训练
如何使用:开源项目,门槛并不高
如果你打算动手试试,流程很直接:
- :从GitHub把Bernini项目拉到本地。
克隆仓库
- :pip安装requirements.txt里的依赖包就行。
安装依赖
- :通过HuggingFace下载Bernini-R-Diffusers权重。
下载模型
- :Python建议用3.11.2,CUDA至少12.4+,推荐Hopper架构GPU(比如H100/H800)。
配置环境
- :用torchrun执行多GPU推理脚本,指定配置文件和测试用例。
运行生成
- :如果想让生成质量更高,可以设置OpenAI兼容的API端点来增强文本提示。
配置提示增强
核心优势:为什么值得关注?
- :MLLM负责语义规划,DiT负责视觉渲染——这才是真正的“先想清楚再动手”。传统视频模型“听不懂人话”的痛点,在这里得到了缓解。
先理解再生成
- :生成、编辑、参考引导……单一架构覆盖多种任务,不用在不同模型之间来回切换。
统一框架
- :文本、图像、视频可以同时输入,SA-3D RoPE保证不会出现时空混淆。
多参考输入
- :编辑时会注入源视频VAE特征,非编辑区域的细节能完整保留,而不是“一改全改”。
细节保留
- :推理代码与权重全部开放,大大降低了研究与开发的门槛。
完全开源
- :即使在训练时没有明确覆盖的指令——比如因果推理、动作变化——它依然表现得相当不错。
强泛化能力
项目地址
- :https://bernini-ai.github.io
项目官网
- :https://github.com/bytedance/Bernini
GitHub仓库
- :https://huggingface.co/ByteDance/Bernini
HuggingFace模型库
- :https://arxiv.org/pdf/2605.22344
arXiv技术论文
与同类竞品的对比:Bernini vs Runway Gen-4
| 对比维度 | Bernini | Runway Gen-4 |
|---|---|---|
开发方 | 字节跳动(开源) | Runway(闭源) |
核心架构 | MLLM Planner + DiT Renderer | 专有视频生成模型 |
任务覆盖 | 生成+编辑统一框架 | 生成+编辑 |
可控编辑 | ★★★★★ 强(语义规划+多参考) | ★★★★☆ 较强 |
参考图支持 | ★★★★★ 多元素/多角度/材质/风格 | ★★★★☆ 支持 |
开源程度 | ★★★★★ 权重+代码开源 | ★☆☆☆☆ 闭源 |
硬件要求 | 推荐 H100/H800(8卡视频) | 云端 API |
视频编辑 | ★★★★★ 保留非编辑区域细节 | ★★★★☆ |
视觉质量 | ★★★★☆ 优秀(480p/16fps) | ★★★★★ 顶尖 |
可以看到,Bernini在可控编辑、参考图支持和开源程度上具备明显优势。如果团队有硬件条件且需要深度定制,它是目前最具性价比的选择。而Gen-4在视觉质量和部署便利性上依然领先,适合追求“即开即用”的团队。值得注意的是,两者在实际使用中并非完全替代关系——一个更开放、更灵活,一个更成熟、更稳定。
应用场景:在哪里能落地?
- :快速生成产品展示视频,支持产品图植入与风格调整——对于需要快速出片的广告团队来说,这能节省大量人力。
广告创意
- :基于商品多角度参考图,生成一致性高的动态展示视频。想象一下,电商详情页里不再是静态图,而是自动生成的、360°无死角的商品演示。
电商展示
- :通过关键帧生成连续镜头,辅助虚拟漫游与场景构建。导演和美术指导可以快速验证镜头设计,降低实际拍摄成本。
影视预演
- :风格迁移、天气变换、动作编辑——这些操作的门槛被大幅降低了。内容创作者不再需要昂贵的后期软件。
二次创作
- :把海报或视频精准填入画面中的屏幕或招牌,实现虚实融合。在影视后期和虚拟制片领域,这个能力相当实用。
虚拟拍摄
话说回来,Bernini目前生成的视频分辨率在480p左右,帧率16fps,与Gen-4的顶尖画质相比还有差距。但对于场景探索、创意验证和轻量级内容生产来说,这个易用性+开源特性已经很难得。业内关注这个方向的朋友,不妨亲自上手试试——开源的世界里,能用起来的才是真优势。