> 数据图表

想问下各位网友Qwen2.5-Max 在指令模型版本中的性能表现

2025-3-4
想问下各位网友Qwen2.5-Max 在指令模型版本中的性能表现
在模型版本上,Qwen2.5 是 Qwen 大型语言模型的最新系列。据阿里云官网,针对 Qwen2.5,阿里云发布了一系列基础语言模型和指令调优语言模型,参数规模从 70 亿到 720 亿不等。Qwen2.5 在 Qwen2 基础上进行了若干改进:1)更大的数据集规模:Qwen2.5 在最新的大规模数据集上进行预训练,包含多达 18 万亿个 Token。2)更好的编码和数学能力:通过阿里云在这些领域的专业专家模型,模型的知识增多,编码和数学能力也获得提高。3)更出色的遵循指令等方面能力:在遵循指令、生成长文本(超过 8K 个标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是 JSON)方面有显著改进。对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。4)更丰富的语言种类:支持超过 29 种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等。 最新版本 Qwen2.5-Max 在测试中展现出全球范围内较为领先的模型性能。据通义公众号,2025 年 1 月 29 日,Qwen2.5-Max 版本正式发布:1)在数据规模上,该版本预训练数据超过 20 万亿 tokens,超越前序所有 Qwen 模型的数据集规模2)在性能上,Qwen2.5-Max在知识(测试大学水平知识的 MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。