> 数据图表

请问一下训练过程中 GPQA-Diamond 的准确率得分

2025-5-3
请问一下训练过程中 GPQA-Diamond 的准确率得分
对策略优化(GRPO)算法。整个训练过程大约需要 14 万 H100 小时,持续训练模型直至其在推理任务上实现收敛。