> 数据图表

我想了解一下SuperCLUE 大模型测评 25 年 5 月总体情况

2025-6-1
我想了解一下SuperCLUE 大模型测评 25 年 5 月总体情况
大模型能力方面,国产模型同样具备较强调用工具完成任务的能力。根据 Superclue 5 月测评结果,OpenAI的 o4-minihigh总分稳居第一,该模型在推理、代码生成、智能体、指令遵循等多个方面表现出卓越的综合能力,国内推理模型崭露头角,部分领域优势突出。测评中“智能体 Agent”维度考察了模型在中文场景下基于可执行的环境,LLM 作为执行代理,在多轮对话中调用工具完成任务的能力,包括常规单轮对话和常规多轮对话两大任务类型。从结果上看,商汤日日新、DeepSeek、华为盘古等国产模型均取得较有表现,与海外头部模型差距较小,标志着国产模型同样具备较强调用工具完成任务的能力。