近年来,多模态大模型(如GPT-4V、Gemini)的崛起让许多人误以为多模态能力是通往通用人工智能(AGI)的必经之路。然而,这一观点值得商榷:AGI的本质并非输入模态的多样性,而是抽象推理与跨任务泛化的能力。正如《The Gradient》上的这篇文章所论证的,单一模态(如纯文本)已经足以催生通用智能的雏形,而多模态的加入更多是工程上的便利,而非智能的核心。
从认知科学角度看,人类智能并不依赖特定的感官通道。盲人可以通过触觉与语言理解世界,甚至发展出极高的数学或逻辑推理能力。同样,一个只需处理文本的模型,如GPT-4,已经展现出推理、规划、甚至代码生成等通用能力。而多模态模型(例如Flamingo或LLaVA)在视觉理解上虽有所突破,但其推理深度往往不如纯文本模型——因为视觉输入带来了大量冗余噪声,且模型容易陷入“模态对齐”的表层任务,而非真正的抽象理解。
技术细节层面,当前多模态模型多采用“文本+视觉编码器”的拼接架构,视觉特征通过Q-Former或Cross-Attention与语言模型交互。这种设计本质上将视觉当作“额外上下文”,并未改变模型内部的推理机制。同时,训练多模态数据需要更大的计算资源和更精细的配对准直,但实验显示,在需要复杂推理的任务(如数学问题、多步规划)中,纯文本模型的表现往往优于同等规模的多模态模型。例如,在GSM8K数学推理测试中,GPT-4(纯文本)准确率高于GPT-4V(多模态),说明视觉模态未带来推理增益。
因此,AGI的关键在于“智能”本身——能否在未知任务上零样本或少样本泛化,能否进行因果推理与元学习。无论输入是文本、图像还是音频,只要模型具备强大的世界模型与推理能力,它就能通过任何通道与环境交互。多模态或许能丰富交互形式,但绝非AGI的充要条件。未来,我们应更关注提升模型的抽象推理与长效记忆机制,而非盲目堆叠模态。
——
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。