想关注一下1.2 从“聋哑司机”到“司机助理”

> 数据图表

想关注一下1.2 从“聋哑司机”到“司机助理”

2025-5-0

1.2 从“聋哑司机”到“司机助理”➢ 语言模型、多模态模型被引入智能驾驶领域——DriveVLM（清华大学、理想汽车）图表：DriveVLM包含三个模块DriveVLM是在传统的自动驾驶系统上，增加了大视觉语言模型（VLM）的能力。由于VLM在视觉理解和推理方面的能力突出，所以结合该大模型能力后，DriveVLM不仅具备基本的自动驾驶能力，而且还能够理解输入的图像信息，并作出对应驾驶决策。• 摄像头输入的图像序列先由视觉编码器进行处理，生成图像tokens，并通过自注意力机制捕捉其中的重要特征，与VLM的组成部分大语言模型进行对齐。• 随后，大语言模型通过思维链（ chain-of-thought ， CoT ）进行推理，主要包含三个模块，场景描述，场景分析和分层规划。资料来源：《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》（XiaoyuTian等，2024），国盛证券研究所26

国盛证券科技传媒