咨询大家VLA Step 1：VL（视觉语言）基座预训练

> 数据图表

咨询大家VLA Step 1：VL（视觉语言）基座预训练

2025-6-1

VLA Step 1：VL（视觉语言）基座预训练◼ VLA训练与推理过程第一阶段：构建交通知识基座的VL（视觉语言）基座预训练。➢ 预训练云端 VL（视觉语言）基座模型。1）V——放入更多3D vision和高清2D vision（图像分辨率较VLM提升10倍）；2）L——放入与交通、驾驶相关的足够多面的语料；3）VL——放入很多VL（视觉和语言）联合的语料，三维图像和对世界的理解语义同时产生（例如导航地图&车辆对导航地图理解同步放入），让模型掌握道路物理规律与人类驾驶常识。➢ 将32B模型蒸馏为3.6B 8专家MoE模型，但双Orin-X和Thor-U仍跑不动token输出率。图：理想VLA第一步——VL（视觉语言）基座预训练2D ViT（视觉编码器）2D Token（词元）32B VL基座模型（320亿稠密参数）Muti-View Camera & Lidar input多视角相机和激光雷达输入3D Token （词元）蒸馏视觉（Vision）上增加3D模态数据语言（Language）上增加驾驶知识数据视觉+语言（VL）上增加3D图文联合数据3.6B VL基座模型（36亿参数MoE）数据来源：理想AI Talk第二季，东吴证券研究所61

东吴证券综合其他