> 数据图表我想了解一下多模态任务 OmniBench 中 Qwen2.5-Omni 达到领先水 QvQ-Max 模型支持上传图片直接解答2025-3-13 月 27 日,阿里发布新一代端到端多模态旗舰模型 Qwen2.5-Omni,专门为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式。其在图片识别、音视频交互与语音生成方面相比上一代具有明显优化。可以实时与用户进行语音问答交互,并支持对上传图片、视频内容进行推理分析。3 月 28 日,阿里发布 QVQ-Max 视觉推理模型,不仅可以准确理解、解析上传的视频与图片,还可以在识别基础上进一步完成推理任务。比如演示案例中,上传景点照片可以推理出景点名称,上传数学题截图可以直接做出解答。真正实现了 AI 大模型从观察到推理的思考过程。此两款模型发布标志阿里在多模态大模型技术上的进一步突破。东方证券综合其他