字节:语义规划统一视频生成编辑 标题Bernini: Latent Semantic Planning for Video Diffusion来源arXiv, 2605.22344v1️文章简介研究问题如何有效结合多模态大语言模型MLLM的语义推理能力与扩散模型的像素生成能力实现统一的视频生成与编辑主要贡献论文提出Bernini框架通过MLLM在ViT嵌入空间进行语义规划DiT渲染器生成像素实现了SOTA的视频生成与编辑性能。重点思路架构设计采用分工策略MLLM作为规划器预测目标语义表示DiT作为渲染器合成像素。两者以语义为接口可独立训练并轻量协同保留各自预训练优势。语义规划MLLM基于掩码生成范式在ViT嵌入空间中迭代预测目标视觉令牌。引入思维链CoT机制增强从理解到生成的推理转移。位置编码提出段感知3D旋转位置嵌入SA-3D RoPE通过段索引相位调制解决多视觉输入序列中时空坐标相同导致的身份混淆问题。数据构建构建大规模多任务数据集包括视频对预训练、高质量传播式编辑数据、运动感知编辑数据及推理增强数据覆盖文本到视频、主体到视频及多种编辑任务。训练策略三阶段训练流程先分别预训练规划器和渲染器最后联合微调对齐语义与视觉确保高效训练与强泛化能力。分析总结性能领先在Bernini-Bench、OpenVE等基准测试中Bernini在指令遵循、视频一致性及生成质量上均取得SOTA成绩尤其在保持非编辑区域一致性方面表现优异。主体一致性在主体到视频生成任务中面部相似度得分显著高于现有方法解决了多参考主体生成中的身份保持难题。推理增强引入自文本和自视觉文本推理机制显著提升了复杂编辑任务的执行 fidelity 和时间连贯性证明了显式推理对生成的促进作用。模块有效性消融实验证实ViT语义接口和MLLM规划器缺一不可SA-3D RoPE能有效防止参考图像特征泄漏提升编辑精度。泛化能力强模型能泛化至训练数据未覆盖的因果推理、焦点变换等复杂指令表明其学到了可组合的指令遵循能力而非单纯记忆。个人观点论文将MLLM的ViT嵌入空间作为语义桥梁解耦了高层语义规划与底层像素渲染。这种设计既利用了MLLM强大的推理能力又避免了端到端训练对预训练知识的破坏。