我想了解一下多模态任务 OmniBench 中 Qwen2.5-Omni 达到领先水 QvQ-Max 模型支持上传图片直接解答

> 数据图表

我想了解一下多模态任务 OmniBench 中 Qwen2.5-Omni 达到领先水 QvQ-Max 模型支持上传图片直接解答

2025-3-1

3 月 27 日，阿里发布新一代端到端多模态旗舰模型 Qwen2.5-Omni，专门为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式。其在图片识别、音视频交互与语音生成方面相比上一代具有明显优化。可以实时与用户进行语音问答交互，并支持对上传图片、视频内容进行推理分析。3 月 28 日，阿里发布 QVQ-Max 视觉推理模型，不仅可以准确理解、解析上传的视频与图片，还可以在识别基础上进一步完成推理任务。比如演示案例中，上传景点照片可以推理出景点名称，上传数学题截图可以直接做出解答。真正实现了 AI 大模型从观察到推理的思考过程。此两款模型发布标志阿里在多模态大模型技术上的进一步突破。

东方证券综合其他