通用人工智能并非多模态

✍️ zhirenhun 📅 2026/5/17 👁 149 阅读 ⏱ 3 分钟

近年来，多模态大模型（如GPT-4V、Gemini）的崛起让许多人误以为多模态能力是通往通用人工智能（AGI）的必经之路。然而，这一观点值得商榷：AGI的本质并非输入模态的多样性，而是抽象推理与跨任务泛化的能力。正如《The Gradient》上的这篇文章所论证的，单一模态（如纯文本）已经足以催生通用智能的雏形，而多模态的加入更多是工程上的便利，而非智能的核心。

从认知科学角度看，人类智能并不依赖特定的感官通道。盲人可以通过触觉与语言理解世界，甚至发展出极高的数学或逻辑推理能力。同样，一个只需处理文本的模型，如GPT-4，已经展现出推理、规划、甚至代码生成等通用能力。而多模态模型（例如Flamingo或LLaVA）在视觉理解上虽有所突破，但其推理深度往往不如纯文本模型——因为视觉输入带来了大量冗余噪声，且模型容易陷入“模态对齐”的表层任务，而非真正的抽象理解。

技术细节层面，当前多模态模型多采用“文本+视觉编码器”的拼接架构，视觉特征通过Q-Former或Cross-Attention与语言模型交互。这种设计本质上将视觉当作“额外上下文”，并未改变模型内部的推理机制。同时，训练多模态数据需要更大的计算资源和更精细的配对准直，但实验显示，在需要复杂推理的任务（如数学问题、多步规划）中，纯文本模型的表现往往优于同等规模的多模态模型。例如，在GSM8K数学推理测试中，GPT-4（纯文本）准确率高于GPT-4V（多模态），说明视觉模态未带来推理增益。

因此，AGI的关键在于“智能”本身——能否在未知任务上零样本或少样本泛化，能否进行因果推理与元学习。无论输入是文本、图像还是音频，只要模型具备强大的世界模型与推理能力，它就能通过任何通道与环境交互。多模态或许能丰富交互形式，但绝非AGI的充要条件。未来，我们应更关注提升模型的抽象推理与长效记忆机制，而非盲目堆叠模态。

——

出处：AGI Is Not Multimodal

——

🧑‍💻