如何了解“视觉-语言-动作模型（VLA）”更接近端到端最终状态

> 数据图表

如何了解“视觉-语言-动作模型（VLA）”更接近端到端最终状态

2025-8-2

2.2.2. VLA 一体化模型直接端到端输出行为，复杂环境适应能力提高在上述需求、大模型技术、芯片算力的共同催化下，一体化大模型呼声愈增，VLA应运而生。“视觉-语言-动作模型（VLA）”最早于 2023 年 7 月由 Google DeepMind提出用于机器人领域，在 VLM 的基础上发展而来，被视为端到端大模型 2.0。VLA大模型以大语言模型为基础，在接收摄像头的原始数据和语言指令后，可直接输出控制信号，完成各种复杂的操作。VLA 相当于端到端VLM 双系统的集合版本：在双系统中，VLM 着重于图像和场景的理解，为智驾决策规划提供输入，最终依然需要依靠端到端模型输出对车辆的控制，而 VLA 则将端到端与多模态大模型更彻底地融合，能够根据感知直接生成车辆的运动规划和决策，更接近“图像输入、控制输出”的端到端最终状态。

国泰海通综合其他