NVIDIA研究团队近日发布了SANA-WM,一个仅26亿参数的开源世界模型,却能够生成长达1分钟、分辨率为720p的高质量视频。这一突破打破了“世界模型必须巨大”的刻板印象,为视频生成、规划、仿真等应用提供了轻量级、可复现的解决方案。
世界模型(World Model)的核心目标是对环境动态进行建模:给定历史状态和动作,预测未来状态。传统的世界模型通常基于循环神经网络(RNN)或Transformer架构,但受限于长时程依赖和计算复杂度。SANA-WM采用了一种创新的混合架构:结合因果扩散模型(Causal Diffusion Model)与高效的时序压缩模块。具体而言,它使用一个三阶段流水线:首先,一个视频压缩编码器(VCE)将输入帧降采样为低维潜在表示;然后,一个时序扩散Transformer在潜在空间中对未来帧进行逐步去噪生成;最后,一个解码器将潜在表示重建为像素级视频。整个模型仅2.6B参数,得益于精心设计的注意力机制——在时间轴使用因果注意力,在空间轴使用窗口注意力,大幅降低了计算量。
关键创新在于“语义引导的生成”和“长程一致性约束”。SANA-WM并非简单地逐帧预测,而是先估计高层语义(如物体位置、运动轨迹),再基于语义生成细节。这类似于人类想象未来场景的方式:先构思“一辆车向右行驶”,再填充颜色、纹理等信息。此外,模型引入了一种时序一致性损失(Temporal Consistency Loss),强制相邻帧之间的场景结构保持一致,从而避免了长期生成中的漂移与变形。
在训练上,团队收集了大规模的开源视频数据集,并设计了一个两阶段策略:先在大规模短片段(4秒)上预训练,然后在长视频(60秒)上微调。为了支持720p分辨率,使用了可变比特率编码和分块训练技术,将显存需求控制在单块40GB A100以内。
评测结果显示,SANA-WM在FVD(Fréchet Video Distance)和CLIP得分上优于许多参数更大的模型(如30B的Genie 2)。更重要的是,它展示了强大的规划能力:在Atari游戏和机器人模拟环境中,模型预测的未来帧可用于下游控制策略训练,甚至实现了零样本泛化到未见过的环境。
SANA-WM的开源意义重大。此前世界模型领域被大型闭源模型主导,研究者难以复现和扩展。NVIDIA在MIT许可下发布了模型权重、训练代码和数据管道,使得全世界的研究者都可以在此基础之上探索更高效的世界模型。未来方向包括:支持更长视频(5分钟以上)、融入文本提示控制、以及将世界模型与强化学习代理深度集成。
SANA-WM证明了:世界模型不需要天文数字的参数,精巧的架构设计和数据效率才是关键。对于一个开放的世界模型社区而言,这无疑是一剂强心针。
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。