首页 / 文章 / SANA-WM:2.6B参数开源世界模型,生成1分钟720p视频
← 返回
AI技术

SANA-WM:2.6B参数开源世界模型,生成1分钟720p视频

✍️ zhirenhun 📅 2026/5/17 👁 13 阅读 ⏱ 4 分钟
SANA-WM:2.6B参数开源世界模型,生成1分钟720p视频

NVIDIA研究团队近日发布了SANA-WM,一个仅26亿参数的开源世界模型,却能够生成长达1分钟、分辨率为720p的高质量视频。这一突破打破了“世界模型必须巨大”的刻板印象,为视频生成、规划、仿真等应用提供了轻量级、可复现的解决方案。

世界模型(World Model)的核心目标是对环境动态进行建模:给定历史状态和动作,预测未来状态。传统的世界模型通常基于循环神经网络(RNN)或Transformer架构,但受限于长时程依赖和计算复杂度。SANA-WM采用了一种创新的混合架构:结合因果扩散模型(Causal Diffusion Model)与高效的时序压缩模块。具体而言,它使用一个三阶段流水线:首先,一个视频压缩编码器(VCE)将输入帧降采样为低维潜在表示;然后,一个时序扩散Transformer在潜在空间中对未来帧进行逐步去噪生成;最后,一个解码器将潜在表示重建为像素级视频。整个模型仅2.6B参数,得益于精心设计的注意力机制——在时间轴使用因果注意力,在空间轴使用窗口注意力,大幅降低了计算量。

关键创新在于“语义引导的生成”和“长程一致性约束”。SANA-WM并非简单地逐帧预测,而是先估计高层语义(如物体位置、运动轨迹),再基于语义生成细节。这类似于人类想象未来场景的方式:先构思“一辆车向右行驶”,再填充颜色、纹理等信息。此外,模型引入了一种时序一致性损失(Temporal Consistency Loss),强制相邻帧之间的场景结构保持一致,从而避免了长期生成中的漂移与变形。

在训练上,团队收集了大规模的开源视频数据集,并设计了一个两阶段策略:先在大规模短片段(4秒)上预训练,然后在长视频(60秒)上微调。为了支持720p分辨率,使用了可变比特率编码和分块训练技术,将显存需求控制在单块40GB A100以内。

评测结果显示,SANA-WM在FVD(Fréchet Video Distance)和CLIP得分上优于许多参数更大的模型(如30B的Genie 2)。更重要的是,它展示了强大的规划能力:在Atari游戏和机器人模拟环境中,模型预测的未来帧可用于下游控制策略训练,甚至实现了零样本泛化到未见过的环境。

SANA-WM的开源意义重大。此前世界模型领域被大型闭源模型主导,研究者难以复现和扩展。NVIDIA在MIT许可下发布了模型权重、训练代码和数据管道,使得全世界的研究者都可以在此基础之上探索更高效的世界模型。未来方向包括:支持更长视频(5分钟以上)、融入文本提示控制、以及将世界模型与强化学习代理深度集成。

SANA-WM证明了:世界模型不需要天文数字的参数,精巧的架构设计和数据效率才是关键。对于一个开放的世界模型社区而言,这无疑是一剂强心针。

——

原文出处:https://nvlabs.github.io/Sana/WM/

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

← 上一篇
神经算法推理:当神经网络学会像计算机一样思考
下一篇 →
δ-mem:为大型语言模型打造的高效在线记忆管理方案

📌 相关推荐

Vibe编码的Photoshop去哪儿了?
2026/5/18
我不认为AI会让你的流程更快
2026/5/18
Semble:面向AI智能体的高效代码搜索工具
2026/5/18
← 返回文章列表