想关注一下VLA 架构包含：空间数据建构、基座模型推理、动作生成三个主要部分

> 数据图表

想关注一下VLA 架构包含：空间数据建构、基座模型推理、动作生成三个主要部分

2025-8-2

以理想于 2025 年 3 月提出的 MindVLA 智驾方案为例，VLA 架构包含：空间数据建构、基座模型推理、动作生成三个主要部分。 V（Spatial-Intelligence）实现 3D 空间建构，理想在 BEVOCC 的基础上采用 3D Gaussian 作为中间表征技术，进行 3D 高斯场景重建，能够提供多粒度、多尺度、更丰富的 3D 几何尺度表达能力并通过图片 RGB 进行自监督训练，更好的输出未来帧高斯建模场景。 L（Lingustic Intelligence）重新设计和训练 LLM 基座模型，模型架构上受到DeepSeek 启发采用 MoE 架构实现多任务并行处理，结合稀疏注意力（Sparse Attention）优化计算效率，在实现模型容量扩容的同时不会大幅度增加推理负担。推理能力上，锻炼模型学习人类的快思考慢思考过程，快思考采用并行解码方式直接输出 Action Token，慢思考则同时输出思维链 CoTAction Token。 A（Action Policy）输出 Action，利用扩散模型（Diffusion Model）进行预测，接入上游输出的 Action Token 解码成优化的轨迹，预测未来特定时长下的场景发生情况，生成驾驶动作。

国泰海通综合其他