【论文阅读】Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

发布时间：2026/5/22 13:05:08

快速了解部分基础信息英文1.题目: Stable Video Infinity: Infinite-Length Video Generation with Error Recycling2.时间: 2025.103.机构: EPFL4.3个英文关键词: Video Generation, Diffusion Transformer (DiT), Error Accumulation1句话通俗总结本文干了什么事情本文提出了一种名为 Stable Video Infinity (SVI) 的方法通过“循环利用”模型自己犯的错误来训练视频生成模型从而实现无限长度、高质量且画面连贯的视频生成。研究痛点现有研究不足 / 要解决的具体问题现有长视频生成方法在生成长视频时会出现“画面漂移”Drifting和质量下降这是因为模型在训练时只见过完美的干净数据但在生成视频测试时却必须基于自己上一步生成的、带有瑕疵的画面进行预测这种“训练与测试的假设不一致”导致错误不断累积放大。核心方法关键技术、模型或研究设计简要提出 Error-Recycling Fine-Tuning (ERFT)即在训练时故意将模型过去生成的错误如模糊、色偏重新注入到干净的训练数据中让模型学会如何识别并纠正这些自己犯下的错误从而适应无限长度的自回归生成。深入了解部分作者想要表达什么作者认为解决长视频生成的核心不在于如何“避免”错误而在于如何让模型学会“容忍并纠正”自己犯下的错误。通过打破“训练数据必须完美”的假设让模型在训练时就习惯处理带有自身瑕疵的画面从而在推理时能实现无限长度的稳定生成。相比前人创新在哪里前人工作多关注于修改采样器、增加锚点帧或调整噪声调度来“缓解”错误累积这只能治标本文创新在于直接针对“训练-测试假设不一致”这一根本病因通过“错误循环利用”让模型具备了主动“修复”自身错误的能力且不增加推理成本支持无限长度。解决方法/算法的通俗解释这就像是教一个学画画的学生。传统方法是只让他临摹大师的完美作品训练但他一旦自己创作测试出现笔误就无法收场。本文的方法是在训练时故意在他画错的画上继续让他练习或者把他的常见错误如画歪的眼睛P到新的画纸上让他重画逼着他学会如何修正错误从而成为一个能独立完成长篇巨作的画家。解决方法的具体做法错误注入在训练阶段随机将模型过去生成的错误存放在 Replay Memory 中叠加到当前的干净视频帧、噪声和参考图上。双向误差计算通过单步积分快速估算模型在错误干扰下的预测偏差。动态存储与采样建立一个错误回放缓冲区动态存储不同时间步的错误并在训练时随机采样注入模拟长期累积的复杂错误。LoRA微调仅使用 LoRA 对 DiT 模型进行微调预测“错误回收后的速度”使模型指向干净的潜在变量。基于前人的哪些方法基于 Video Diffusion Transformer (DiT) 架构利用了 Flow Matching (流匹配) 理论借鉴了 Federated Learning (联邦学习) 中的思路用于错误缓冲区的更新兼容并扩展了现有的条件控制方法如 Audio, Skeleton control。实验设置、数据、评估方式、结论设置建立了三个基准测试一致性生成、创意生成、多模态条件生成包含50秒至250秒的超长视频。数据使用了 MixKit, Hallo 3, TikTok 等数据集进行微调数据量较小约300-6k视频。评估使用 Vbench 的6项核心指标主题一致性、背景一致性、美学质量等及特定指标Sync-C, FVD。结论SVI 在保持高质量和高动态性的同时显著优于 Wan 2.1、StreamingT2V 等 SOTA 方法实现了无限长度生成且无明显质量下降。提到的同类工作StreamingT2V, HistoryGuidance, FramePack, Wan 2.1, Self-Forcing, LoViC, LongLive.和本文相关性最高的3个文献StreamingT2V (Henschel et al., 2025) 2025.02Wan 2.1 (Wang et al., 2025a) 2025.03Self-Forcing (Huang et al., 2025) 2025.06我的长视频生成工作思想很好。主要思想就是先生成一个长视频后面会有ERROR把这些ERROR存下来在训练模型的时候把ERROR注入让模型知道有这个ERROR的时候如何生成好视频。

GEO优化适合什么类型的企业

这是一个非常务实的问题。很多企业主会担心：“GEO这么高大上的东西，是不是只有大品牌才用得上？”答案是：GEO适用于几乎所有希望通过线上渠道获取客户的企业，只是不同体量、不同行业的企业，适配的GEO策略有所…

2026/5/22 13:04:22 阅读更多

后端接口分层架构：Handler/Service/Model 各自该写什么？写错了会怎样？

后端接口分层架构：Handler/Service/Model 各自该写什么？写错了会怎样？标签：#架构设计 #代码规范 #后端开发 #最佳实践适合：刚开始写"工业级"后端代码的同学你是不是经常这样写代码？ func Exchan…

2026/5/22 13:03:59 阅读更多

Display Driver Uninstaller终极指南：显卡驱动深度清理解决方案

Display Driver Uninstaller终极指南：显卡驱动深度清理解决方案【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-uni…

2026/5/22 13:03:35 阅读更多

初创团队如何利用Taotoken的Token Plan实现AI应用成本可控

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度初创团队如何利用Taotoken的Token Plan实现AI应用成本可控对于预算敏感的初创团队而言，在快速迭代产品、集成AI功能的…

2026/5/22 17:28:34 阅读更多

Android浮动菜单神器Hover：快速实现悬浮菜单的完整指南 [特殊字符]

Android浮动菜单神器Hover：快速实现悬浮菜单的完整指南 🚀 【免费下载链接】hover A floating menu library for Android. 项目地址: https://gitcode.com/gh_mirrors/hover5/hover 想要为你的Android应用添加一个酷炫的浮动菜单吗？Ho…

2026/5/22 17:25:31 阅读更多

GoogleTranslate_IPFinder高级功能详解：自定义IP段扫描与在线同步服务

GoogleTranslate_IPFinder高级功能详解：自定义IP段扫描与在线同步服务【免费下载链接】GoogleTranslate_IPFinder 谷歌翻译API服务器的IP扫描、测速工具。项目地址: https://gitcode.com/gh_mirrors/go/GoogleTranslate_IPFinder GoogleTranslate_IPFinder…

2026/5/22 17:24:30 阅读更多

昇腾CANN向量索引生成API

asc_arange 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com…

2026/5/22 17:24:10 阅读更多

深度学习注意力机制详解：从理论到代码实现

深度学习注意力机制详解：从理论到代码实现【免费下载链接】Awesome-Deep-Learning-Resources Rough list of my favorite deep learning resources, useful for revisiting topics or for reference. I have got through all of the content listed there, careful…

2026/5/22 17:24:10 阅读更多

谷歌外贸seo优化怎么做？把B端网站跳出率降到40%以下的技巧

谷歌分析工具GA4录得500个外贸B端站点平均跳出率处在61.8%区间。谷歌外贸seo优化怎么做？把B端网站跳出率降到40%以下的技巧需要精准调校多项技术参数。下表显示不同工业品行业在常态下的跳出率均值。工业品海外站点基本数据对比表行业类别谷歌建议跳出率上限常见平均…

2026/5/22 17:23:29 阅读更多

单日大涨4.52%！华泰柏瑞中韩半导体ETF（513310.SH）上演“高热度”行情，溢价率风险引关注

5月21日，华泰柏瑞中韩半导体ETF（513310.SH）延续强势表现，当日收盘价报5.625元，涨幅达4.52%，盘中交投异常活跃，换手率109.80%，量比为1.32，市场资金交易热情高涨。然而&…

2026/5/22 0:00:46 阅读更多

11. 架构：前端工程化与状态管理实战

写在前面：如果说后端 MVT 引擎是 GIS 系统的“心脏”，那么前端就是它的“大脑”和“面孔”。在现代 WebGIS 开发中，如何优雅地管理复杂的图层状态、如何处理海量瓦片的渲染逻辑，是决定项目成败的关键。今天，我们将深入 light-mvt-server 的前端核心，看看如何利用 Vite …

2026/5/22 0:01:27 阅读更多

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mi…

2026/5/22 0:02:07 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/22 3:58:33 阅读更多

相关文章