首页 > 教程攻略 > ai资讯 >字节开源统一框架Bernini

字节开源统一框架Bernini

来源:互联网 时间:2026-06-04 13:25:06

AI视频生成和编辑领域,正在经历一场底层逻辑的重构。字节跳动商业化技术团队最近开源了一个统一框架——Bernini,它的核心思路很明确:“先理解、再生成”。这听起来简单,但正是传统模型在应对复杂文本指令时常常翻车的根源——画面失控、帧间闪烁,这些都是老生常谈的痛点。

传统视频编辑,最怕什么?主体变形、背景漂移、动作断裂。Bernini 的思路是,干脆把工作流拆成两段:先做“语义规划”,再做“视觉渲染”。系统先通过多模态大模型规划器(MLLM-based planner),对输入的文本、视频、参考图像做深度解析,在特征空间里预判出目标语义表示——等于是画一张不限像素的“语义草图”。然后,基于 Diffusion Transformer 的渲染器(DiT-based renderer)再上场,把这张草图渲染成稳定、连续的视频画面。分工明确,各司其职。

image.png

这套机制的价值,在可控编辑上体现得很充分。用户只需要一条指令,就能让画面里的天气、季节、材质、视觉风格发生逼真变化,甚至还能精确控制镜头视角、焦点、主体动作。举个例子:在环境与镜头保持稳定的前提下,你可以让视频里的动物动作自然地改变——这就让 AI 视频编辑的精准度,前所未有地接近传统后期软件的水平。

除了文本操控,Bernini也支持图片和视频作为视觉参考,这让创作一致性上了个大台阶。在视频编辑场景里,它可以精准地把特定材质、指定主体,甚至广告海报嵌入目标区域,边界不破、透视不乱;在新视频生成场景里,它支持单图参考生成、多角度参考生成、关键帧到连续镜头的演变,甚至还能把几个八竿子打不着的单品图像,完美组合到同一个视频角色身上。

多视觉片段串联时,模型最容易犯的错是什么?认混素材。为了解决这个问题,团队引入了 SA-3D RoPE 位置编码机制,给不同的视觉片段贴上专属标记,这样模型就能分清参考素材和输出目标,同时保留准确的时空位置关系。在字节自建的测试中,Bernini已经稳稳站在行业第一梯队。目前,推理代码和第二阶段的模型 Bernini-R 已经开放权限,包含完整 MLLM 规划器的全版本,也将在近期全面开放。