> 数据图表

你知道内存成本占 BOM 比重

2025-9-1
你知道内存成本占 BOM 比重
分布,并从分布中采样得到下一个词元,后续追加新生成的词元到序列中,开始循环输入。可以看出,每次循环只生成一个词元,速度主要受限于内存带宽(因为需要不断读取缓存的 KV),而不是计算能力。生成速度主要取决于已生成序列的长度。 所以,在上下文处理阶段,“计算墙”的瓶颈限制高于“内存墙”,使用 GDDR 7 可以满足在此阶段访存需求。另外,HBM 相对于平面 DRAM 内存来说可谓“天价”,通过将上下文与生成阶段解耦,将无需密集内存访问的上下文阶段转移至 CPX,无需使用价格昂贵的 HBM 减小 TCO,从而最大化投资回报率。英伟达给出的商业模型是 每 1 亿美元硬件可创造约 50 亿美元 token 收入(长上下文高吞吐带来的 ROI)。