Self-Forcing++：让自回归视频生成模型突破 4 分钟时长极限-新科技-资讯-头部财经

Self-Forcing++：让自回归视频生成模型突破 4 分钟时长极限

资讯 » 新科技 2025-10-20

本工作由加州大学洛杉矶分校与字节 Seed 等团队联合完成。

在扩散模型持续引领视觉生成浪潮的今天，图像生成早已臻于极致，但视频生成仍被一个关键瓶颈困住——时长限制。目前多数模型还停留在数秒短视频的生成，Self-Forcing++让视频生成首次跨入4 分钟高质量长视频时代，且无需任何长视频数据再训练。先展示一段 100 秒的生成视频：

论文标题：Self-Forcing++: Towards Minute-Scale High-Quality Video Generation论文地址：https://arxiv.org/abs/2510.02283项目主页：https://self-forcing-plus-plus.github.io代码：https://github.com/justincui03/Self-Forcing-Plus-Plus

研究背景：

为什么长视频生成如此困难？

在扩散模型驱动的视觉生成领域，从 Sora、Wan、Hunyuan-Video 到 Veo，视频模型正不断逼近真实世界。然而几乎所有主流模型都有一个共同限制：只能生成数秒的短片段。

这背后的原因在于架构层面的「先天缺陷」：

Transformer 的非因果性—— 传统扩散 Transformer (DiT) 需要同时看到所有帧，无法自然地逐帧扩展；

训练-推理不匹配—— 模型在训练时只见过 5 秒短片，却在推理时要生成几十秒甚至几分钟；

误差累积—— 教师模型在每一帧提供强监督，但学生模型在长序列中没有应对逐步误差的能力；

过曝与冻结—— 长时间生成后常出现画面静止、亮度漂移、运动中断等「灾难性崩塌」。

这些问题共同导致：即使最先进的自回归视频扩散模型，也难以在 10 秒以上保持画面一致与运动连贯。

核心思想：

教师模型即世界模型

Self-Forcing++ 的关键洞察是：

教师模型虽然只会生成 5 秒视频，但它依然掌握纠错长视频失真的能力。

研究者利用这一点，让学生模型先自己生成长视频（即使这些视频已经开始「崩坏」），再用教师模型来纠正它的错误。

经过这种「生成→失真→再纠错→再学习」循环，模型逐步学会了在长时间尺度下自我修复和稳态生成。这一机制让 Self-Forcing++ 无需任何长视频标注，就能把生成时长从 5 秒扩展到 100 秒，甚至 4 分钟 15 秒（达到位置编码极限的 99.9%）。

技术解析：

关键的三步让模型稳定生成超长视频

1️⃣反向噪声初始化（Backward Noise Initialization）

在传统短视频蒸馏中，模型每次都从随机噪声生成。

Self-Forcing++ 改为在长视频 roll-out 后，把噪声重新注入到已生成的序列中，使后续帧与前文保持时间连续性。

这一步相当于让模型「重启但不失忆」，避免时间割裂。

2️⃣扩展分布匹配蒸馏（Extended DMD）

作者将原本只在 5 秒窗口内进行的教师-学生分布对齐，扩展为滑动窗口蒸馏：

学生先生成 100 秒长视频 → 随机抽取其中任意 5 秒片段 → 用教师分布校正该片段。

这样，教师不必生成长视频，也能「局部监督」学生的长序列表现，从而实现长期一致性学习。

3️⃣滚动 KV 缓存（Rolling KV Cache）

以往自回归模型（如 CausVid）在推理时使用滚动缓存，但训练时却仍用固定窗口，造成严重偏差。

Self-Forcing++在训练阶段也同步采用滚动缓存，实现真正的训练-推理对齐，彻底消除了「曝光漂移」和「帧重复」的问题。

进一步优化：

强化学习加持的时间平滑

在部分极长视频中，模型仍可能出现突然跳帧或场景突变。

研究者借鉴强化学习中的Group Relative Policy Optimization (GRPO)框架，引入光流平滑奖励（Optical-Flow Reward），让模型通过惩罚光流突变来学习更自然的运动过渡。结果显示：光流方差显著下降，视频流畅度显著提升。整体的算法可以归纳为下面的流程。

实验结果：

在 50、75 和 100 秒的视频生成评测上全面超越基线

测试设置

模型规模：1.3B 参数（与 Wan2.1-T2V 相同）对比方法：CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等评估指标：VBench + 新提出的 Visual Stability（视觉稳定性）

主要成果

以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的测试结果。

如下图所示，在 0-100 秒的生成结果上，Self-Forcing++ 都能保持很好的稳定性，基线模型大多数都会经历严重的质量下降，比如过曝光和错误累积。

可视化展示：

更多的超长视频展示

在这些长视频中，Self-Forcing++ 始终保持稳定亮度与自然运动，视觉效果几乎无明显劣化。

Scaling 现象：

训练算力 ×25 → 255 秒视频

作者进一步探究「算力与时长」关系，在可视化生成过程中有以下发现：

这说明可能无需长视频数据，只要扩展训练预算，即可延展生成时长。

局限与展望

虽然自回归视频生成已经能达到分钟级别，但是目前依旧有以下问题有待提高：

长时记忆缺失：极长场景下，仍可能丢失被遮挡物体的状态；训练效率较慢：自回归训练成本高，比 teacher-forcing 训练速度慢。

更多演示视频和我们的方法请参考我们的主页。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

杨继峰加盟优必选子公司UQI优奇

2025-10-2020阅读
京东超级补贴日10月20日晚8点开启买家电可享国补叠加额外9折优惠

2025-10-2020阅读
重磅！DeepSeek再开源：视觉即压缩，100个token干翻7000个

2025-10-2020阅读
商务部发布一批典型实践案例，金华1项入选

2025-10-2020阅读
聚焦数字贸易与AI深度融合金华“数智方阵”精彩亮相数贸会

2025-10-2020阅读
上市仅10天大定即突破12000台！别克至境L7正式开启全国交付

2025-10-2020阅读
亚马逊云服务：云服务在大范围中断后已恢复

2025-10-2020阅读
全球首个“力位混合控制算法”提出

2025-10-2020阅读
可重复使用火箭朱雀三号进入首飞关键准备阶段

2025-10-2020阅读
弦子的山海经|启用42款特种武器！美国攻击国家授时中心，何以如此疯狂？

2025-10-2020阅读