> 数据图表咨询大家2.3 存储需求:服务器是最强动力,AI推理驱动需求爆发
2025-12-22.3 存储需求:服务器是最强动力,AI推理驱动需求爆发存储层级在大语言模型(LLM)推理中存储什么?在AI视频生成推理中存储什么?图表:存储的分层HBM(GPU显存)模型权重 + 活跃的KV Cache。这是推理的主战场,所有计算都在此进行。KV Cache用于避免重复计算注意力,是支持流式输出的关键。当KV Cache超过HBM容量时,非活跃部分会被卸载至DRAM或SSD。正在执行计算的模型参数 + 当前帧的中间特征张量(激活值)。例如,生成视频时,当前正在渲染的帧及其相关神经网络层的输出会驻留在HBM中。部分模型参数(如不活跃层)可根据策略卸载。DRAM(主机内存)非活跃或溢出的KV Cache(如用户会话上下文)、准备被GPU加载的模型分块。作为HBM的溢出池,通过类似LLM或英伟达Dynamo引擎的技术,存放暂时不用但很快可能需要的中间数据,避免重新计算。待处理的视频帧数据。从HBM卸载的部分模型参数或中间特征。当HBM容量不足时,一些计算量较小的组件会被换出到此,充当高速缓存。SSD(高速本地盘)所有模型权重的本地副本、被换出的KV Cache(当DRAM也不足时)。作为“温存储”,保障模型和部分中间数据能快速加载至DRAM和HBM。也用于存储短期的对话日志和推理结果。视频素材库、模型检查点(Checkpoint)、近期生成的视频成品。从DRAM进一步溢出的中间数据。充当高速缓存,存放生成过程中所需的热门素材和组件,支持NVMe-of等高速访问协议。HDD(硬盘/对象存储)模型归档副本、长期日志/审计数据、训练数据集。作为持久化、低成本的“冷存储”或“数据湖”,用于备份和归档,几乎不会参与日常高频推理。通常不存储KV Cache。海量的原始视频素材、长期归档的视频成品、训练用的数据集。存放访问频率极低但需要长期保留的巨量冷数据。来源:CSDN,中电标协数据存储专业委员会,AI全栈方案与服务、架构师技术联盟等公众号,中泰证券研究所54