字节：语义规划统一视频生成编辑

发布时间：2026/6/8 14:02:19

标题Bernini: Latent Semantic Planning for Video Diffusion来源arXiv, 2605.22344v1️文章简介研究问题如何有效结合多模态大语言模型MLLM的语义推理能力与扩散模型的像素生成能力实现统一的视频生成与编辑主要贡献论文提出Bernini框架通过MLLM在ViT嵌入空间进行语义规划DiT渲染器生成像素实现了SOTA的视频生成与编辑性能。重点思路架构设计采用分工策略MLLM作为规划器预测目标语义表示DiT作为渲染器合成像素。两者以语义为接口可独立训练并轻量协同保留各自预训练优势。语义规划MLLM基于掩码生成范式在ViT嵌入空间中迭代预测目标视觉令牌。引入思维链CoT机制增强从理解到生成的推理转移。位置编码提出段感知3D旋转位置嵌入SA-3D RoPE通过段索引相位调制解决多视觉输入序列中时空坐标相同导致的身份混淆问题。数据构建构建大规模多任务数据集包括视频对预训练、高质量传播式编辑数据、运动感知编辑数据及推理增强数据覆盖文本到视频、主体到视频及多种编辑任务。训练策略三阶段训练流程先分别预训练规划器和渲染器最后联合微调对齐语义与视觉确保高效训练与强泛化能力。分析总结性能领先在Bernini-Bench、OpenVE等基准测试中Bernini在指令遵循、视频一致性及生成质量上均取得SOTA成绩尤其在保持非编辑区域一致性方面表现优异。主体一致性在主体到视频生成任务中面部相似度得分显著高于现有方法解决了多参考主体生成中的身份保持难题。推理增强引入自文本和自视觉文本推理机制显著提升了复杂编辑任务的执行 fidelity 和时间连贯性证明了显式推理对生成的促进作用。模块有效性消融实验证实ViT语义接口和MLLM规划器缺一不可SA-3D RoPE能有效防止参考图像特征泄漏提升编辑精度。泛化能力强模型能泛化至训练数据未覆盖的因果推理、焦点变换等复杂指令表明其学到了可组合的指令遵循能力而非单纯记忆。个人观点论文将MLLM的ViT嵌入空间作为语义桥梁解耦了高层语义规划与底层像素渲染。这种设计既利用了MLLM强大的推理能力又避免了端到端训练对预训练知识的破坏。

史上最经典最形象最直观的相机标定教程（通过交互展示每一个标定参数）

利用OpenCV进行Camera Calibration 本人在教学机器视觉，讲到了相机标定章节，设计了本实验。借助AI，设计了可视化的交互代码。实验目标本项目使用棋盘格图片完成相机标定。程序检测每张图片中的棋盘格内角点，建立棋盘格真实三…

2026/6/8 14:02:19 阅读更多

054、SimOTA 最优传输分配：cost matrix到dynamic k到supplier-demander 的匈牙利思想

054、SimOTA 最优传输分配：cost matrix到dynamic k到supplier-demander 的匈牙利思想从一次mAP卡在0.45的调试说起去年夏天调YOLOX的时候，有个场景让我印象特别深——COCO上mAP死活卡在0.45，换backbone、调学习率、改数据增强，能…

2026/6/8 14:01:35 阅读更多

HCS12微控制器Flash与EEPROM保护机制深度解析与工程实践

1. 项目概述：HCS12微控制器非易失性存储器的深度防护实践在嵌入式系统，尤其是汽车电子和工业控制这类对可靠性要求近乎苛刻的领域，微控制器内部的非易失性存储器（NVM）不仅仅是存放代码和数据的“仓库”，更是…

2026/6/8 14:01:35 阅读更多

惠普暗影精灵终极性能控制指南：3步解锁隐藏功能，打造专属游戏本

惠普暗影精灵终极性能控制指南：3步解锁隐藏功能，打造专属游戏本【免费下载链接】OmenSuperHub Control Omen laptop performance, fan speeds, and keyboard lighting, and unlock power limits. 项目地址: https://gitcode.com/gh_mirrors/om/OmenSu…

2026/6/8 19:14:47 阅读更多

终极暗黑破坏神2宽屏补丁：一键解锁4K高帧率现代游戏体验

终极暗黑破坏神2宽屏补丁：一键解锁4K高帧率现代游戏体验【免费下载链接】d2dx D2DX is a complete solution to make Diablo II run well on modern PCs, with high fps and better resolutions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2dx 还在为经…

2026/6/8 19:14:47 阅读更多

Flutter桌面开发避坑实录：从VS2022兼容到‘开发者模式’报错，我都帮你趟平了

Flutter桌面开发避坑实录：从VS2022兼容到‘开发者模式’报错最近两年，Flutter在桌面端的发展速度远超预期。作为一名从移动端转型到桌面开发的工程师，我完整经历了从环境配置到项目上线的全过程，期间踩过的坑足以写一本《Flutter桌…

2026/6/8 19:13:26 阅读更多

千万级存量复杂文档，如何进入企业知识库和大模型应用？

大型工程机械集团面临千万级非结构化文档（图纸、合同、财务单据等）分散存储、难以利用的困境。文章提出构建统一文档解析能力，通过版面结构、表格、图纸、多语言等模块解析，将文档转化为结构化、可追溯的内容，支撑知识…

2026/6/8 19:13:26 阅读更多

终极指南：如何让2007年后的老款Mac焕发新生，运行最新macOS系统

终极指南：如何让2007年后的老款Mac焕发新生，运行最新macOS系统【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否有一台被苹果官方…

2026/6/8 19:12:45 阅读更多

别再只盯着Shiro-550/721了：聊聊Logback JNDI注入（CVE-2019-14439）在CTF和实战中的新花样

从Logback JNDI注入到混合漏洞链：CTF与实战中的高阶利用艺术当安全研究员们还在反复咀嚼Shiro-550/721这类"经典菜品"时，一场更精致的漏洞盛宴正在暗流涌动。在2020年NPUCTF的EzShiro赛题中，命题人巧妙地将Shiro权限绕过、Jackson反…

2026/6/8 19:12:04 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

史上最经典最形象最直观的相机标定教程（通过交互展示每一个标定参数）

054、SimOTA 最优传输分配：cost matrix到dynamic k到supplier-demander 的匈牙利思想

HCS12微控制器Flash与EEPROM保护机制深度解析与工程实践

惠普暗影精灵终极性能控制指南：3步解锁隐藏功能，打造专属游戏本

终极暗黑破坏神2宽屏补丁：一键解锁4K高帧率现代游戏体验

Flutter桌面开发避坑实录：从VS2022兼容到‘开发者模式’报错，我都帮你趟平了

千万级存量复杂文档，如何进入企业知识库和大模型应用？

终极指南：如何让2007年后的老款Mac焕发新生，运行最新macOS系统

别再只盯着Shiro-550/721了：聊聊Logback JNDI注入（CVE-2019-14439）在CTF和实战中的新花样

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因