请问一下训练过程中 GPQA-Diamond 的准确率得分

> 数据图表

请问一下训练过程中 GPQA-Diamond 的准确率得分

2025-5-3

请问一下训练过程中 GPQA-Diamond 的准确率得分

对策略优化（GRPO）算法。整个训练过程大约需要 14 万 H100 小时，持续训练模型直至其在推理任务上实现收敛。

中邮证券金融地产