基于梯度的长时域世界模型规划方法（GRASP）

✍️ zhirenhun 📅 2026/5/17 👁 136 阅读 ⏱ 3 分钟

世界模型通过学习环境的压缩表征，使智能体能够在隐空间中进行“想象”规划。然而，随着规划步数增加，基于梯度的优化极易遭遇梯度消失与局部最优，难以在长时域中保持稳定。来自伯克利大学的研究团队提出了**GRASP**（Gradient-based Planning for World Models at Longer Horizons），一种结合跳跃梯度结构与泰勒展开近似的规划框架，有效扩展了基于梯度的规划在长时域场景下的实用范围。

GRASP的核心思路是：在隐空间轨迹优化过程中，引入**分层梯度通路**——将规划路径切分为若干短片段，每个片段的末尾梯度通过“跳跃连接”直接传递回初始状态，从而避免深层次反向传播中的梯度衰减。具体而言，GRASP使用世界模型的编码器将观测映射为隐状态，再通过可微分动力学模型预测未来隐态序列。规划目标函数则同时考虑任务奖励与显式地约束隐态的可逆性，以防止模型发散。

与传统的模型预测控制（MPC）不同，GRASP并不依赖粒子群或交叉熵方法进行全局搜索，而是采用**混合优化策略**：先用少量随机采样实现粗略搜索，再以梯度下降法对候选轨迹进行精细调整。实验表明，在具有长程依赖的控制任务（如Mujoco的跑酷、Atari的Montezuma’s Revenge）中，GRASP在100步规划范围上的成功率比时域式直接梯度优化高出3倍，且计算开销仅增加约30%。

值得注意的是，GRASP在训练世界模型时仍保持标准的自回归监督学习，无需更改模型结构；其规划算法仅在推理阶段调用梯度求解器。这使得GRASP可以即插即用地适配现有的世界模型系列，如DreamerV3和TD-MPC2。未来工作将探索如何将GRASP的跳跃梯度思想与随机优化相结合，实现更鲁棒的闭环规划。

——

出处：Gradient-based Planning for World Models at Longer Horizons (GRASP)

——

🧑‍💻