SANA-WM：2.6B参数开源世界模型，生成1分钟720p视频

✍️ zhirenhun 📅 2026/5/17 👁 13 阅读 ⏱ 4 分钟

NVIDIA研究团队近日发布了SANA-WM，一个仅26亿参数的开源世界模型，却能够生成长达1分钟、分辨率为720p的高质量视频。这一突破打破了“世界模型必须巨大”的刻板印象，为视频生成、规划、仿真等应用提供了轻量级、可复现的解决方案。

世界模型（World Model）的核心目标是对环境动态进行建模：给定历史状态和动作，预测未来状态。传统的世界模型通常基于循环神经网络（RNN）或Transformer架构，但受限于长时程依赖和计算复杂度。SANA-WM采用了一种创新的混合架构：结合因果扩散模型（Causal Diffusion Model）与高效的时序压缩模块。具体而言，它使用一个三阶段流水线：首先，一个视频压缩编码器（VCE）将输入帧降采样为低维潜在表示；然后，一个时序扩散Transformer在潜在空间中对未来帧进行逐步去噪生成；最后，一个解码器将潜在表示重建为像素级视频。整个模型仅2.6B参数，得益于精心设计的注意力机制——在时间轴使用因果注意力，在空间轴使用窗口注意力，大幅降低了计算量。

关键创新在于“语义引导的生成”和“长程一致性约束”。SANA-WM并非简单地逐帧预测，而是先估计高层语义（如物体位置、运动轨迹），再基于语义生成细节。这类似于人类想象未来场景的方式：先构思“一辆车向右行驶”，再填充颜色、纹理等信息。此外，模型引入了一种时序一致性损失（Temporal Consistency Loss），强制相邻帧之间的场景结构保持一致，从而避免了长期生成中的漂移与变形。

在训练上，团队收集了大规模的开源视频数据集，并设计了一个两阶段策略：先在大规模短片段（4秒）上预训练，然后在长视频（60秒）上微调。为了支持720p分辨率，使用了可变比特率编码和分块训练技术，将显存需求控制在单块40GB A100以内。

评测结果显示，SANA-WM在FVD（Fréchet Video Distance）和CLIP得分上优于许多参数更大的模型（如30B的Genie 2）。更重要的是，它展示了强大的规划能力：在Atari游戏和机器人模拟环境中，模型预测的未来帧可用于下游控制策略训练，甚至实现了零样本泛化到未见过的环境。

SANA-WM的开源意义重大。此前世界模型领域被大型闭源模型主导，研究者难以复现和扩展。NVIDIA在MIT许可下发布了模型权重、训练代码和数据管道，使得全世界的研究者都可以在此基础之上探索更高效的世界模型。未来方向包括：支持更长视频（5分钟以上）、融入文本提示控制、以及将世界模型与强化学习代理深度集成。

SANA-WM证明了：世界模型不需要天文数字的参数，精巧的架构设计和数据效率才是关键。对于一个开放的世界模型社区而言，这无疑是一剂强心针。

——

原文出处：https://nvlabs.github.io/Sana/WM/

🧑‍💻