> 数据图表

如何看待人工智能:小米开源首个原生端到端语音大模型

2025-9-1
如何看待人工智能:小米开源首个原生端到端语音大模型
人工智能:小米开源首个原生端到端语音大模型•9月19日,小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,并在预训练观察到明显的“涌现”行为。据介绍,在通用语音理解及对话等多项标准评测基准中,MiMo-Audio大幅超越了同参数 量的开源 模型, 取得7B最佳性 能;在音 频理解 基准MMAU的标准测试集 上,MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。图:Xiaomi-MiMo-Audio 性能亮眼图:同时引入语音理解和语音生成过程中的开源模型资料来源:Xiaomi MiMo公众号,天风证券研究所48