你知道内存成本占 BOM 比重

> 数据图表

你知道内存成本占 BOM 比重

2025-9-1

分布，并从分布中采样得到下一个词元，后续追加新生成的词元到序列中，开始循环输入。可以看出，每次循环只生成一个词元，速度主要受限于内存带宽（因为需要不断读取缓存的 KV），而不是计算能力。生成速度主要取决于已生成序列的长度。所以，在上下文处理阶段，“计算墙”的瓶颈限制高于“内存墙”，使用 GDDR 7 可以满足在此阶段访存需求。另外，HBM 相对于平面 DRAM 内存来说可谓“天价”，通过将上下文与生成阶段解耦，将无需密集内存访问的上下文阶段转移至 CPX，无需使用价格昂贵的 HBM 减小 TCO，从而最大化投资回报率。英伟达给出的商业模型是每 1 亿美元硬件可创造约 50 亿美元 token 收入（长上下文高吞吐带来的 ROI）。

金元证券工业制造