请问一下VLA模型核心6大技术拆解

> 数据图表

请问一下VLA模型核心6大技术拆解

2025-6-1

VLA模型核心6大技术拆解◼ 自监督的3D高斯表征➢ 3D高斯表征能力让计算机学会用“蓬松的 3D 云团”来概括散乱3D点云的位置和形状，每个云团（高斯分布）能模糊地表示物体的大致位置、大小和方向。➢ 优点：1）减少人工标注成本；2）支持海量数据处理；3）处理复杂场景；4）实时性和效率。◼ 模型稀疏化➢ 模型稀疏化在压缩模型的同时，做到准确率不会下降。➢ MoE中路由器类似“智能秘书”，负责分析问题寻找专家。专家是独立小模型，专注特定领域。通过MoE Layer动态筛选专家，模型在保持“超强大脑”的同时，只调用真正需要的计算资源。➢ Sparse Attention即稀疏注意力机制。其改变了传统Transformer架构中允许模型动态观察序列所有位置的方法，只计算查询向量和部分键向量的相似度，从而减少计算量和内存消耗。表：3D高斯和神经辐射场技术对比图：MoE模型参数级稀疏使实际计算量下降数据来源：博文视点，图灵编辑部，东吴证券研究所583DGS技术NeRF技术非常快，通常能达到实时渲染快速，通常优于NeRF高，可以用较少的数据进行训练高，因为是基于点云的稀疏表示一般，每个场景需要单独训练强，可以对点云进行直接编辑与现有图形管线兼容性好相对简单，容易与现有技术结合可以非常高，取决于实现细节三维表达方式显式三维表达渲染速度训练速度数据效率存储效率泛化能力编辑能力兼容性易用性视觉质量计算复杂度相对较低，因为是基于点云的方法较高，需要大量的MLP计算应用场景适合高质量视觉效果的场景非常活跃，有大量研究和应用研究活跃度活跃，快速发展中开源项目例如nerfstudio、Colab等隐式三维表达相对较慢，但经过优化可以接近实时较慢，但有多种优化方法可以加速较高，但通常需要多视角数据较低，因为需要存储MLP的权重一般，但有研究工作在提升其泛化性弱，需要特定的网络结构来支持编辑需要特定的渲染管线或插件需要理解较深的机器学习知识非常高，特别是在细节渲染上适合实时渲染和大规模场景例nerfstudio

东吴证券综合其他