想问下各位网友Qwen2.5-Max 在指令模型版本中的性能表现

> 数据图表

想问下各位网友Qwen2.5-Max 在指令模型版本中的性能表现

2025-3-4

在模型版本上，Qwen2.5 是 Qwen 大型语言模型的最新系列。据阿里云官网，针对 Qwen2.5，阿里云发布了一系列基础语言模型和指令调优语言模型，参数规模从 70 亿到 720 亿不等。Qwen2.5 在 Qwen2 基础上进行了若干改进：1）更大的数据集规模：Qwen2.5 在最新的大规模数据集上进行预训练，包含多达 18 万亿个 Token。2）更好的编码和数学能力：通过阿里云在这些领域的专业专家模型，模型的知识增多，编码和数学能力也获得提高。3）更出色的遵循指令等方面能力：在遵循指令、生成长文本（超过 8K 个标记）、理解结构化数据（例如表格）和生成结构化输出（尤其是 JSON）方面有显著改进。对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实现和条件设置。4）更丰富的语言种类：支持超过 29 种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。最新版本 Qwen2.5-Max 在测试中展现出全球范围内较为领先的模型性能。据通义公众号，2025 年 1 月 29 日，Qwen2.5-Max 版本正式发布：1）在数据规模上，该版本预训练数据超过 20 万亿 tokens，超越前序所有 Qwen 模型的数据集规模2）在性能上，Qwen2.5-Max在知识（测试大学水平知识的 MMLU-Pro）、编程（LiveCodeBench）、全面评估综合能力（LiveBench）以及人类偏好对齐（Arena-Hard）等主流权威基准测试上，展现出全球领先的模型性能。

华泰证券综合其他