如何解释Qwen3-Max-Preview在多项评测超越Claude-Opus4（Non-Thinking），以及Kimi-K2、DeepSeek-V3.1

> 数据图表

如何解释Qwen3-Max-Preview在多项评测超越Claude-Opus4（Non-Thinking），以及Kimi-K2、DeepSeek-V3.1

2025-9-0

外知名大模型 API 聚合平台 OpenRouter 数据显示，阿里千问模型全球市场份额最高超 12.3%，超越美国 OpenAI 和 Llama 系列模型，居全球第四Qwen3-Coder 调用量更是一周暴增 1474%，位列编程领域的全球第二。截至目前，阿里巴巴已开源 300 多个模型，坚定推动“全尺寸”“全模态”“多场景”的全面开源。全球开发者基于千问模型衍生开发超 14 万个模型，阿里通义超越美国 Llama 成为全球第一开源模型。阿里 AI 应用快速发展：高德地图全面 AI 化，推出全球首个基于地图的 AI 原生应用高德地图 2025。钉钉最新完成 AI 升级，打造全球首个以 Agent 驱动的工作信息流，探索下一代工作应用形态。淘宝平台也实现 AI 搜索、AI 广告平台等一系列 AI 应用升级，提升消费者体验和商家经营效率阿里 AI 芯片或迎突破：据华尔街日报报道，阿里巴巴正在开发一款新的人工智能芯片，意在填补英伟达在中国市场的空白。目前这款芯片已进入测试阶段，主要面向更广泛的 AI 推理任务，并与英伟达的架构兼容。不同于以往依赖台积电代工，此次新芯片将转由国内企业代工生产，以降低对海外供应链的依赖。 2025 年 9 月 6 日阿里上线了新模型 Qwen3-Max-PreviewInstruct，这是阿里迄今为止最大的模型，参数量超 1 万亿。Qwen3-Max-Preview 在多项主流权威基准测试中展现出全球领先的性能。在通用知识（SuperGPQA）、数学推理（AIME25）、编程（LiveCodeBench v6）、人类偏好对齐（Arena-Hard v2）以及综合性能力评估（LiveBench）评测中，Qwen3-Max-Preview 超越了 Claude-Opus4（Non-Thinking），以及 Kimi-K2、DeepSeek-V3.1 和我们此前的开源最佳 Qwen3-235B-A22B-Instruct-2507。在内部测试和早期用户测评中，Qwen3-Max-Preview 的确表现出更强的智能水平，更广的知识面，更优秀的对话能力，在 Agent 任务与指令遵循等方面拥有更强劲的性能。 Qwen3-Max-Preview 证明了，规模化扩展（Scaling）仍然有效，更大的模型拥有更强的性能。

国盛证券综合其他