首页 > 教程攻略 > ai资讯 >字节开源统一框架Bernini

字节开源统一框架Bernini

来源：互联网时间：2026-06-04 13:25:06

AI视频生成和编辑领域，正在经历一场底层逻辑的重构。字节跳动商业化技术团队最近开源了一个统一框架——Bernini，它的核心思路很明确：“先理解、再生成”。这听起来简单，但正是传统模型在应对复杂文本指令时常常翻车的根源——画面失控、帧间闪烁，这些都是老生常谈的痛点。

传统视频编辑，最怕什么？主体变形、背景漂移、动作断裂。Bernini 的思路是，干脆把工作流拆成两段：先做“语义规划”，再做“视觉渲染”。系统先通过多模态大模型规划器（MLLM-based planner），对输入的文本、视频、参考图像做深度解析，在特征空间里预判出目标语义表示——等于是画一张不限像素的“语义草图”。然后，基于 Diffusion Transformer 的渲染器（DiT-based renderer）再上场，把这张草图渲染成稳定、连续的视频画面。分工明确，各司其职。

这套机制的价值，在可控编辑上体现得很充分。用户只需要一条指令，就能让画面里的天气、季节、材质、视觉风格发生逼真变化，甚至还能精确控制镜头视角、焦点、主体动作。举个例子：在环境与镜头保持稳定的前提下，你可以让视频里的动物动作自然地改变——这就让 AI 视频编辑的精准度，前所未有地接近传统后期软件的水平。

除了文本操控，Bernini也支持图片和视频作为视觉参考，这让创作一致性上了个大台阶。在视频编辑场景里，它可以精准地把特定材质、指定主体，甚至广告海报嵌入目标区域，边界不破、透视不乱；在新视频生成场景里，它支持单图参考生成、多角度参考生成、关键帧到连续镜头的演变，甚至还能把几个八竿子打不着的单品图像，完美组合到同一个视频角色身上。

多视觉片段串联时，模型最容易犯的错是什么？认混素材。为了解决这个问题，团队引入了 SA-3D RoPE 位置编码机制，给不同的视觉片段贴上专属标记，这样模型就能分清参考素材和输出目标，同时保留准确的时空位置关系。在字节自建的测试中，Bernini已经稳稳站在行业第一梯队。目前，推理代码和第二阶段的模型 Bernini-R 已经开放权限，包含完整 MLLM 规划器的全版本，也将在近期全面开放。

字节开源统一框架Bernini

相关阅读

相关下载