一起讨论下大模型路线，多模态大模型是是未来的主要研究方向

> 数据图表

一起讨论下大模型路线，多模态大模型是是未来的主要研究方向

2025-4-3

VLA（视觉-语言-动作）端到端大模型。视觉-语言-动作（VLA）模型将视觉、语言和动作三种模态融合，形成端到端的模型。该模型能够从视觉输入和语言指令中直接生成动作指令，实现复杂任务的自主执行。例如，Google DeepMind 的 Robotic Transformer 2（RT-2）就是典型的 VLA 模型。多模态大模型：多模态大模型旨在处理多种模态的数据，如文本、图像、音频等。通过联合训练，这些模型能够在不同模态之间进行信息融合，实现更复杂的任务。在机器人领域，多模态大模型使机器人能够综合处理来自不同传感器的数据，提升其感知和决策能力，是目前主要研究方向。

交银国际证券工业制造