想问下各位网友Grok-4 普通与会员版本性能对比

> 数据图表

想问下各位网友Grok-4 普通与会员版本性能对比

2025-12-4

在性能测试上，xAI 采用人类最后一场闭卷考试（Human-Level Examination, HLE）基准对 Grok-4 进行评估。HLE 基准测试由全球多领域权威专家联合制定，涵盖数学、生物、计算机等学科的 2500 个高阶专业问题，对标博士级科研难度，在业界内是评估模型在跨学科推理、复杂系统分析能力的权威测试。Grok-4 以 44.4%的准确率，刷新了历史得分记录Grok-4 在国际数学竞赛 AIME 2024、SAT 以及美国研究生入学考试 GRE 等传统大模型测试中取得了高分。

华创证券综合其他