长期以来,自动驾驶面临的核心挑战之一是处理长尾、复杂的道路场景。传统方法依赖手工编写的规则和大量人工标注数据,难以覆盖所有边缘情况。大语言模型(LLMs)的崛起为这一领域带来了新思路——将其强大的推理、多模态理解与常识能力融合进驾驶决策系统,催生了像“Car-GPT”这样的端到端架构。
Car-GPT并非直接让GPT模型“开车”,而是借鉴其Transformer架构与预训练范式。具体而言,系统将车载传感器的原始数据(摄像头图像、激光雷达点云、毫米波雷达信号)编码为类似自然语言的高维特征序列,再通过一个专用的大规模语言模型进行场景推理。例如,当车辆接近一个没有明显标记的交叉口时,Car-GPT能依据对“行人意图”、“交通流模式”以及“物理惯例”的理解,生成安全的驾驶动作——这类似于LLMs在对话中根据上下文预测下一句。
技术细节上,Car-GPT采用了多模态对齐训练:将驾驶场景的鸟瞰视图(BEV)表示与自然语言描述进行对比学习,使模型学会在“语义空间”与“物理空间”之间映射。此外,通过自回归的轨迹预测,模型可以输出连续的动作序列(转向角、加速度),而不仅仅是离散的类别。这种做法避开了传统模块间信息丢失的问题,让感知、预测、规划融为一体。
然而,Car-GPT也面临显著挑战。首先,LLMs的“幻觉”问题——在未预见的场景下可能输出危险动作;其次,推理延迟必须控制在毫秒级,这对大模型的轻量化部署提出了极高要求;最后,可解释性方面,黑箱式的决策仍需冗余的安全监控系统作最后保障。尽管如此,Car-GPT代表了一种范式转变:从“编写所有规则”转向“从海量驾驶数据中学习通用驾驶智能”。未来,随着更强大的多模态基座模型出现,LLMs或许真的能成为推动L4/L5自动驾驶落地的那把关键钥匙。
——
出处:Car-GPT: Could LLMs finally make self-driving cars happen?
——
一个热爱技术的程序员,喜欢分享前沿AI知识和开发经验。