字节开源统一框架Bernini
AI视频生成和编辑领域,正在经历一场底层逻辑的重构。字节跳动商业化技术团队最近开源了一个统一框架——
传统视频编辑,最怕什么?主体变形、背景漂移、动作断裂。Bernini 的思路是,干脆把工作流拆成两段:先做“语义规划”,再做“视觉渲染”。系统先通过多模态大模型规划器(MLLM-based planner),对输入的文本、视频、参考图像做深度解析,在特征空间里预判出目标语义表示——等于是画一张不限像素的“语义草图”。然后,基于 Diffusion Transformer 的渲染器(DiT-based renderer)再上场,把这张草图渲染成稳定、连续的视频画面。分工明确,各司其职。

这套机制的价值,在可控编辑上体现得很充分。用户只需要一条指令,就能让画面里的天气、季节、材质、视觉风格发生逼真变化,甚至还能精确控制镜头视角、焦点、主体动作。举个例子:在环境与镜头保持稳定的前提下,你可以让视频里的动物动作自然地改变——这就让 AI 视频编辑的精准度,前所未有地接近传统后期软件的水平。
除了文本操控,
多视觉片段串联时,模型最容易犯的错是什么?认混素材。为了解决这个问题,团队引入了 SA-3D RoPE 位置编码机制,给不同的视觉片段贴上专属标记,这样模型就能分清参考素材和输出目标,同时保留准确的时空位置关系。在字节自建的测试中,