> 数据图表

你知道1.2 从“聋哑司机”到“司机助理”

2025-5-0
你知道1.2 从“聋哑司机”到“司机助理”
1.2 从“聋哑司机”到“司机助理”➢ 语言模型、多模态模型被引入智能驾驶领域——理想的VLA1)第一步训练出一个VL基座模型,也就是vision和language的基座模型。理想目前在训练的版本是一个32B参数(320亿)的云端基座模型。2)第二步,后训练是要把它变成VLA,把action放进来。这时模型规模会从3.2B扩大到接近4B。3)第三步,强化训练。强化分成两个部分:第一部分先做RLHF;第二部分是纯粹的RL,用世界模型生成的数据来做训练。4)第四步,搭建司机agent。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。图表:理想VLA第三个阶段——强化训练图表:理想VLA第四个阶段——Agent资料来源:理想汽车AI Talk第二季、六合商业研选,国盛证券研究所31