如何了解1.2 从“聋哑司机”到“司机助理”

> 数据图表

如何了解1.2 从“聋哑司机”到“司机助理”

2025-5-0

1.2 从“聋哑司机”到“司机助理”➢ 语言模型、多模态模型被引入智能驾驶领域——理想的VLA1）第一步训练出一个VL基座模型，也就是vision和language的基座模型。理想目前在训练的版本是一个32B参数（320亿）的云端基座模型。2）第二步，后训练是要把它变成VLA，把action放进来。这时模型规模会从3.2B扩大到接近4B。3）第三步，强化训练。强化分成两个部分：第一部分先做RLHF；第二部分是纯粹的RL，用世界模型生成的数据来做训练。4）第四步，搭建司机agent。简单通用的短指令由端侧的VLA直接处理，复杂指令则先由云端的VL基座模型解析，再交由VLA处理。图表：理想VLA第三个阶段——强化训练图表：理想VLA第四个阶段——Agent资料来源：理想汽车AI Talk第二季、六合商业研选，国盛证券研究所31

国盛证券科技传媒