> 数据图表请问一下训练过程中 GPQA-Diamond 的准确率得分2025-5-3对策略优化(GRPO)算法。整个训练过程大约需要 14 万 H100 小时,持续训练模型直至其在推理任务上实现收敛。中邮证券金融地产