> 数据图表一起讨论下理想智能化软件:VLA核心解决问题2025-6-1理想智能化软件:VLA核心解决问题&技术◼ VLA模型核心解决几大问题:➢ 1)超强的人车博弈环境+读懂各类交通文字牌信息+具备常识和推理能力。➢ 2)快慢两套系统的频率不一致,异构联合训练和优化的困难。➢ 3)VLM是基于开源的LLM大模型,是基于互联网二级图文数据,对3D空间理解和驾驶知识不足,从而导致预训练的模型上限不高,即使通过后训练优化上限也很难打开。➢ 4)英伟达芯片算力和内存带宽不足以支撑模型参数大幅上升和推理速度。➢ 5)基于transfomer+BEV训练的自动驾驶行为是无法理解人类司机的多模块行为。也就是自动驾驶的开车拟人化还是不够,不知道人类司机是可以情绪化开车的。➢ 6)如何对齐人类价值观,提升模型的下限也非常重要。◼ VLA模型核心6大技术:➢ 技术1: 自监督的3D高斯表征。相比之前单目2D-单目3D-鸟瞰BEV-占用网络等依赖于有监督学习,数据标注工作量巨大。3D高斯可以高效且精准识别清楚3D空间特征。➢ 技术2:模型稀疏化(抓大放小)。实现模型参数大幅扩容时候不增加推理负担。1)采用MoE架构,多个专家实现模型扩容且保证激活参数不大幅增加;2)Sparse Attention进一步提升稀疏化率。➢ 技术3:简化思维链CoT模板。快系统就不需要思维链,慢系统也需要简化思维链。➢ 技术4:提供两套推理模式。1)语言推理用因果注意力机制逐字输出(走一步看一步);2)Action token双向注意力机制一次性输出(纵观全局再行动)。➢ 技术5:利用diffusion模型将指令转换成驾驶行为轨迹且预测其他周边人和车行为轨迹,且可以根据外部因素输入来改变行为轨迹(比如要车开慢点就会慢点)。➢ 技术6:ODE采样器去解决diffusion模型生成效率低的问题。数据来源:英伟达GTC大会2024,东吴证券研究所57东吴证券综合其他