> 数据图表

谁能回答1.1.1 多模态技术尚未收敛,生成视频、多模态实时交互为未来方向

2025-9-3
谁能回答1.1.1 多模态技术尚未收敛,生成视频、多模态实时交互为未来方向
1.1.1 多模态技术尚未收敛,生成视频、多模态实时交互为未来方向 多模态大模型融合了多种感知路径和表达形态,能够同时处理文本、图像、语音等多种数据,并进行深度的语义理解和交叉模态处理,具备深度人机交互和全面智能应用的潜力。当前,多模态大模型主要分为理解和生成两种类型,技术路线尚未收敛,成为国内外大模型厂商重点突破方向之一。 多模态理解模型:多模态理解模型对齐视觉特征与文本特征实现跨模态的统一理解,分为以下两类技术路线:1)一方面,基于语言大模型底座,配合多类外部专家模型共同实现多模态处理;2)另一方面,通过跨模态特征对齐学习,实现多模态输入的统一和融合,例如OpenAI的CLIP模型通过对比学习,将图像与文本通过各自的与训练模型获得的编码向量在向量空间上对齐,从而理解和推理图像和文本之间的关系。 多模态生成:多模态生成模型基于对不同模态信息的理解,具备文本、图像、视频、语音信息的生成能力,分为两类技术路线:1)一方面,DiT结合扩散模型与Transformer优势,成为视频生成模型主流架构;2)另一方面,端到端统一多模态架构,实现跨模态生成与实时交互响应,例如GPT-4o与Gemini均采用端到端原生多模态单体模型的方式学习文本、视觉、语音等不同模态的统一表征,实现跨模态实时交互响应。图表1:多模态模型技术路线表类型多模态理解多模态生成资料来源:中国信通院《人工智能发展报告(2024年)》,中邮证券研究所请参阅附注免责声明路线语言大模型调度跨模态特征对齐扩散模型端到端理解与生成架构典型微软 Visual ChatGPT谷歌 PaLM-EOpenAI CLIP微软 KOSMOSDeepMind FlamingoSalesforce BLIPStability Al Stable DiffusionOpenAI DALL.EOpenAl Sora快手 KLINGRunway Gen-3谷歌 GeminiOpenAI GPT-4o5