> 数据图表

如何了解DeepSeek-R1-Zero 在 RL 过程中平均响应长度

2025-4-3
如何了解DeepSeek-R1-Zero 在 RL 过程中平均响应长度
生成长思维链(Chain-of-Thought, CoT)的能力,标志着研究界的重要里程碑。值得注意的是,这是第一项验证 LLMs 推理能力可以纯粹通过 RL 激励的开放研究,而无需 SFT。