如何了解DeepSeek-R1-Zero 在 RL 过程中平均响应长度

> 数据图表

2025-4-3

生成长思维链（Chain-of-Thought, CoT）的能力，标志着研究界的重要里程碑。值得注意的是，这是第一项验证 LLMs 推理能力可以纯粹通过 RL 激励的开放研究，而无需 SFT。