Car-GPT：大语言模型能否最终实现自动驾驶？

✍️ zhirenhun 📅 2026/5/17 👁 85 阅读 ⏱ 3 分钟

长期以来，自动驾驶面临的核心挑战之一是处理长尾、复杂的道路场景。传统方法依赖手工编写的规则和大量人工标注数据，难以覆盖所有边缘情况。大语言模型（LLMs）的崛起为这一领域带来了新思路——将其强大的推理、多模态理解与常识能力融合进驾驶决策系统，催生了像“Car-GPT”这样的端到端架构。

Car-GPT并非直接让GPT模型“开车”，而是借鉴其Transformer架构与预训练范式。具体而言，系统将车载传感器的原始数据（摄像头图像、激光雷达点云、毫米波雷达信号）编码为类似自然语言的高维特征序列，再通过一个专用的大规模语言模型进行场景推理。例如，当车辆接近一个没有明显标记的交叉口时，Car-GPT能依据对“行人意图”、“交通流模式”以及“物理惯例”的理解，生成安全的驾驶动作——这类似于LLMs在对话中根据上下文预测下一句。

技术细节上，Car-GPT采用了多模态对齐训练：将驾驶场景的鸟瞰视图（BEV）表示与自然语言描述进行对比学习，使模型学会在“语义空间”与“物理空间”之间映射。此外，通过自回归的轨迹预测，模型可以输出连续的动作序列（转向角、加速度），而不仅仅是离散的类别。这种做法避开了传统模块间信息丢失的问题，让感知、预测、规划融为一体。

然而，Car-GPT也面临显著挑战。首先，LLMs的“幻觉”问题——在未预见的场景下可能输出危险动作；其次，推理延迟必须控制在毫秒级，这对大模型的轻量化部署提出了极高要求；最后，可解释性方面，黑箱式的决策仍需冗余的安全监控系统作最后保障。尽管如此，Car-GPT代表了一种范式转变：从“编写所有规则”转向“从海量驾驶数据中学习通用驾驶智能”。未来，随着更强大的多模态基座模型出现，LLMs或许真的能成为推动L4/L5自动驾驶落地的那把关键钥匙。

——

出处：Car-GPT: Could LLMs finally make self-driving cars happen?

——

🧑‍💻