首页 / 文章 / Agora-1:多智能体世界模型
← 返回
AI技术

Agora-1:多智能体世界模型

✍️ zhirenhun 📅 2026/5/19 👁 5 阅读 ⏱ 11 分钟
Agora-1:多智能体世界模型
Agora-1:多智能体世界模型

Agora-1:多智能体世界模型

Agora-1 允许多人——无论是人类还是 AI——在同一个世界模拟中实时共享和交互

Agora-1 多智能体世界模型

Oliver Cameron

2026 年 5 月 18 日

今天,我们激动地发布 Agora-1,这是一系列多智能体世界模型中的第一个,探索世界模型如何为游戏、机器人、国防、教育、基础模型等领域带来全新而强大的共享体验。世界模型是为任意环境生成高保真模拟的强大工具,但在此之前,它们一直局限于模拟世界中只有一个活动参与者。借助 Agora-1,我们首次引入了多智能体世界模拟

为了探索多智能体世界模型,我们将目光投向了 GoldenEye——Odyssey 团队许多成员成长过程中热爱的一款游戏。长期以来,游戏一直是 AI 研究的有用环境,从 Atari、Minecraft、StarCraft 到如今的 GoldenEye,都有系统在此训练。

Agora-1 允许多达四名玩家在同一个生成的世界中实时交互。玩家被匹配到共享的死斗模拟中,每个参与者同时与相同的生成世界进行交互。你所体验的一切都由 Agora-1 实时生成——模型根据玩家的行动模拟交互行为,维护跨参与者的共享世界状态,并同时向每个玩家流式传输生成的像素。实际上,Agora-1 就像一个学出来的游戏引擎

由 Agora-1 驱动的共享死斗模拟

从单智能体到多智能体世界模型

传统世界模型将模拟动态和渲染整合在单一模型中。迄今为止,已有一些方法探索了世界模型中的多智能体交互,包括 Multiverse、Solaris 和 MultiGen。Multiverse 将智能体状态拼接成一个"分屏"表示,实际上将多个玩家视为一个世界状态。Solaris 则将每个参与者沿单一自回归扩散 Transformer 的序列维度拼接,产生更稳健的共享模拟。然而,这种方法不会随玩家数量线性扩展,因为模型上下文会随之增长。此外,当玩家彼此脱离视线时,Multiverse 和 Solaris 都难以稳健地维护一致性。

Agora-1 探索了一条不同的道路——将模拟与渲染解耦。与 MultiGen 类似,Agora-1 在参与者之间维护一个显式的共享世界状态。但我们在建模模拟动态和从共享状态进行渲染时采用了不同的方法。通过分离这些功能,Agora-1 能够从多个独立视角生成同一模拟世界的一致视图,从而支持多人游戏、机器人和多视角模拟等应用。

Agora-1 架构图
Agora-1 的架构

学习共享世界状态

Agora-1 学习两个不同的功能。首先,它学习世界状态如何随时间推移在玩家交互下演变。为此,我们直接在一个或多个游戏的内部状态上训练模型——在 Agora-1 的案例中,就是 GoldenEye。这个模型学习底层游戏动态以及玩家行动如何引起状态转换。其次,Agora-1 学习如何将共享状态可视化渲染出来。这是通过一个基于 DiT 的世界模型实现的,该模型直接以共享游戏状态为条件信号,而非提示词、图像或其他传统条件信号。

你可以把这种分离大致理解为现代游戏引擎的架构。不同之处在于,这两个组件都是完全学习出来的系统——它们不依赖硬编码的游戏逻辑或渲染规则,而是直接从数据中学习。

这两个模型都引入了独特的研究挑战。离散的游戏状态在结构上不同于大多数基于 DiT 的世界模型所处理的连续视觉域,这需要专门为游戏状态建模设计的架构和大量结构化训练数据。同时,渲染模型必须学会从多个视角同时生成同一共享状态的一致视觉表示。这种架构的一个结果是,底层游戏状态可以直接被操控,使 Agora-1 能够生成全新的关卡,同时保留与源游戏一致的动态特性。

Agora-1 世界状态
Agora-1 的世界状态追踪每个智能体的生命值、位置等信息

将多智能体交互扩展到基础模型

扩展共享世界状态

目前,Agora-1 的状态模型相对简单,但这并非根本性限制。原则上,内部状态表示可以任意扩展,从而实现越来越复杂的模拟和游戏动态。随着时间的推移,我们预计这些系统将能够泛化到不同的规则和状态表示,让用户通过与模型的交互直接生成全新的体验。

我们更广泛的研究焦点是理解多智能体交互如何扩展到基础世界模型,而不损害其开放性行为或通用性。我们相信这可以通过学习系统而非显式的手工协调机制来实现。Agora-1 这样的研究环境为研究这些问题提供了可控的试验场。

多智能体强化学习

Agora-1 也是强化学习研究的有用环境。我们认为,通往更通用智能体的道路越来越不是受限于模型架构,而是受限于训练期间的可用经验——具体来说,是智能体主动寻求改进自身能力的交互。传统世界模型只支持一个交互参与者,限制了它们能支持的强化学习环境类型。这包括我们最近的 PROWL 工作——其中对抗性策略被训练用来暴露世界模型中的失败,并从这些失败中生成新的训练数据。

PROWL 对抗框架
PROWL 是一个新颖的 RL 驱动的对抗框架,RL 智能体在其中探索游戏环境

Agora-1 解除了这种单智能体限制。随着参与者数量的增加,联合交互空间呈组合式增长,而被动收集的演示只能覆盖越来越小比例的有意义交互——碰撞、协同移动、争抢目标以及其他涌现行为。多智能体强化学习提供了一种可扩展的机制,通过开放式交互生成这些缺失的数据。随着时间的推移,智能体和世界模型可以协同进化,不断将彼此推向越来越困难的领域。

想象式多智能体训练

我们还认为 Agora-1 本身就可以作为一个生成式多智能体模拟器。多智能体世界模型实际上就是一个学出来的协作与竞争模拟环境。完全在这些生成世界中训练的策略可以泛化到未见过的环境和未见过的交互伙伴,而无需访问原始游戏。Agora-1 为这类想象式训练提供了有用的基础,使竞争型智能体、协作型智能体和混合群体都能在生成环境中学习。

超越游戏

最后,Agora-1 背后的架构并不局限于游戏。许多现实世界的系统需要在同一共享环境中运行多个智能体。协作机器人就是一个例子——机器人必须共同推理彼此的行动、空间和交互。更广泛地说,多智能体世界模型可能开启新的交互系统形式,而这是传统模拟或游戏引擎架构难以实现的。我们非常期待看到研究人员和开发者用这些模型构建出什么样的成果。

Agora-1 共享死斗模拟
由 Agora-1 驱动的共享死斗模拟

立即体验 Agora-1

我们相信多智能体世界模型为全新类别的交互系统打开了大门。Agora-1 是早期研究预览,但它指向了一个未来——世界模型可以支持共享交互、涌现式游戏玩法、协作机器人,以及智能体在模拟世界中共同学习。结合 PROWL 等系统——后者使世界模型能够通过主动探索和发现来改进——我们认为这些方法最终可能为在开放式模拟世界中训练更高级智能体奠定基础。

贡献团队

Agora-1 的实现离不开 Odyssey 团队的卓越贡献。

Aravind Kaimal, James Grieve, Sirish Srinivasan, Vinh-Dieu Lam, Zygmunt Łenyk.

Ahmad Nazeri, Ahmet Hamdi Guzel, Amogh Adishesha, Andy Kolkhorst, Ben Graham, Derek Sarshad, Fabian Güra, Finley Code, Jenny Seidenschwarz, Jesse Allardice, Jessica Inman, Jonathan Sadeghi, Kaiwen Guo, Kristy McDonough, Nicolas Griffiths, Nima Rezaeian, Richard Shen, Robin Tweedie, Sarah King, Tobiah Rex, Vighnesh Birodkar.

Jeff Hawke, Oliver Cameron.

——

🧑‍💻

zhirenhun

一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。

← 上一篇
Vibe编码的Photoshop去哪儿了?
下一篇 →
Project Glasswing:Mythos 教会我们的事

📌 相关推荐

Project Glasswing:Mythos 教会我们的事
2026/5/19
Vibe编码的Photoshop去哪儿了?
2026/5/18
我不认为AI会让你的流程更快
2026/5/18
← 返回文章列表