我想了解一下SuperCLUE 大模型测评 25 年 5 月总体情况

> 数据图表

我想了解一下SuperCLUE 大模型测评 25 年 5 月总体情况

2025-6-1

大模型能力方面，国产模型同样具备较强调用工具完成任务的能力。根据 Superclue 5 月测评结果，OpenAI的 o4-minihigh总分稳居第一，该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力，国内推理模型崭露头角，部分领域优势突出。测评中“智能体 Agent”维度考察了模型在中文场景下基于可执行的环境，LLM 作为执行代理，在多轮对话中调用工具完成任务的能力，包括常规单轮对话和常规多轮对话两大任务类型。从结果上看，商汤日日新、DeepSeek、华为盘古等国产模型均取得较有表现，与海外头部模型差距较小，标志着国产模型同样具备较强调用工具完成任务的能力。

东兴证券综合其他