> 数据图表

想问下各位网友DeepSeek-R1-Zero 在训练过程中出现跳跃点

2025-4-4
想问下各位网友DeepSeek-R1-Zero 在训练过程中出现跳跃点
究论文,大模型在训练学习的过程中,响应长度会出现突然的显著增长后又回落,这些跳跃点可能暗示模型推理解题策略的质变,即模型推理能力的显著提升。