> 数据图表

如何了解机器人模型路线

2025-6-0
如何了解机器人模型路线
软件层面,当前业内头部公司如优必选正在向学习型端到端全身控制方向发展,能优化运动规划能力,使得机器人摆脱遥控器,实现机器人的自主感知决策行动。我们认为,当前具身智能的大脑技术处于多条路径并行、逐步向端到端方向演进的状态,25 年以来双系统架构的 VLA 模型成为主流路径。现阶段具身智能大模型的主流技术路线为:LLM 大语言模型VLM 视觉基础模型,现阶段技术更为成熟,能实现人机交互任务理解推理规划VLM 视觉语言模型,进一步弥补了语言与视觉理解间的差距VLA 视觉-语言-动作模型,在 VLM 基础上增加了运动控制,解决运动轨迹决策多模态大模型,能全面感知物理世界,是终局发展方向。23 年谷歌 DeepMind 推出 RT-2 模型,实现从语言指令和视觉信号直接生成特定动作,具身智能算法加速向 VLA 方向发展,25 年以来国内外头部公司如英伟达、FIGURE、PI、智元等,均推出双系统架构的 VLA 模型。 具身智能算法与自动驾驶有强相似性,其终局必要解决长尾问题,长尾数据难以依靠收集数据解决,我们认为,模型范式大概率会进化到 VLM、VLA。而当前 VLA 模型尚不成熟:VLA 与推理的结合路径未明确最优方案训练 VLA 的数据量级与多样化不及训练 VLM的数据,且目前数据多采集于简单环境,使得行业陷入数据限制模型能力而模型能力又限制数据采集的负循环实际部署 VLA 时,系统运行频率单一,设计类似人类的高低频自适应闭环系统目前没有经济性的方案VLA 训练存在割裂,当前大脑 VLM 和小脑底层策略模型一般是分开训练,缺乏端到端训练(类似人类大小脑的双向交互),同时 VLA 仅能由大模型生成中间信号驱动小模型输出,无法像语言模型通过强化学习在测试时,能够持续计算优化推理能力。我们认为往后看端到端的大脑算法实机收集数据或为终局技术路线,但考虑到当前行业技术不成熟,短期或仍然是分层算法仿真数据训练为主。