> 数据图表

如何解释Qwen3-Max-Preview在多项评测超越Claude-Opus4(Non-Thinking),以及Kimi-K2、DeepSeek-V3.1

2025-9-0
如何解释Qwen3-Max-Preview在多项评测超越Claude-Opus4(Non-Thinking),以及Kimi-K2、DeepSeek-V3.1
外知名大模型 API 聚合平台 OpenRouter 数据显示,阿里千问模型全球市场份额最高超 12.3%,超越美国 OpenAI 和 Llama 系列模型,居全球第四Qwen3-Coder 调用量更是一周暴增 1474%,位列编程领域的全球第二。截至目前,阿里巴巴已开源 300 多个模型,坚定推动“全尺寸”“全模态”“多场景”的全面开源。全球开发者基于千问模型衍生开发超 14 万个模型,阿里通义超越美国 Llama 成为全球第一开源模型。 阿里 AI 应用快速发展:高德地图全面 AI 化,推出全球首个基于地图的 AI 原生应用高德地图 2025。钉钉最新完成 AI 升级,打造全球首个以 Agent 驱动的工作信息流,探索下一代工作应用形态。淘宝平台也实现 AI 搜索、AI 广告平台等一系列 AI 应用升级,提升消费者体验和商家经营效率 阿里 AI 芯片或迎突破:据华尔街日报报道,阿里巴巴正在开发一款新的人工智能芯片,意在填补英伟达在中国市场的空白。目前这款芯片已进入测试阶段,主要面向更广泛的 AI 推理任务,并与英伟达的架构兼容。不同于以往依赖台积电代工,此次新芯片将转由国内企业代工生产,以降低对海外供应链的依赖。 2025 年 9 月 6 日阿里上线了新模型 Qwen3-Max-PreviewInstruct,这是阿里迄今为止最大的模型,参数量超 1 万亿。Qwen3-Max-Preview 在多项主流权威基准测试中展现出全球领先的性能。在通用知识(SuperGPQA)、数学推理(AIME25)、编程(LiveCodeBench v6)、人类偏好对齐(Arena-Hard v2)以及综合性能力评估(LiveBench)评测中,Qwen3-Max-Preview 超越了 Claude-Opus4(Non-Thinking),以及 Kimi-K2、DeepSeek-V3.1 和我们此前的开源最佳 Qwen3-235B-A22B-Instruct-2507。在内部测试和早期用户测评中,Qwen3-Max-Preview 的确表现出更强的智能水平,更广的知识面,更优秀的对话能力,在 Agent 任务与指令遵循等方面拥有更强劲的性能。 Qwen3-Max-Preview 证明了,规模化扩展(Scaling)仍然有效,更大的模型拥有更强的性能。