> 数据图表谁知道2.3 存储需求:服务器是最强动力,AI推理驱动需求爆发2025-12-22.3 存储需求:服务器是最强动力,AI推理驱动需求爆发n 2、AI推理驱动存储需求指数级爆发。Ø 1) KV Cache多层缓存成为推理系统“标配” ,带来存储需求全面爆发。Ø 定位分工:HBM 成本高、延迟低,承担热点计算与高频访问;DRAM承接层级缓存与中等频度访问;SSD作为成本/容量折中层,承接冷数据与长周期缓存/索引。Ø 工程逻辑:在大体量查询与长上下文背景下,系统优先复用 Prefill 阶段的 KV cache,以降低 Decode 计算与端到端时延。当再次遇到相似问题时,可直接调用已缓存 KV,无需重复计算,整体算力成本更优。Ø 随着“缓存保留时长”与“并发度”提升,热数据上收至 HBM、冷数据下沉至 DRAM/SSD 的比重上升,带动DRAM 与SSD配置同步放大。当前海外大型互联网公司已在基础设施侧普遍采用 HBM+DRAM+SSD的KV Cache多层缓存方案。Ø 2) 对话范式升级:从模型自答到思维链展开、与外部工具/Agent 联动,Token消耗量明显提升。Ø 范式切换:2024 年以前,主流对话以模型自答为主,外部检索与数据库调用有限;2025 年起,链式推理(CoT)与工具调用/多 Agent 协作渗透率提升,token 用量与外部数据访问显著增加。Ø 量纲变化:模型在理解与拆解问题后,还需跨检索/地图/支付/本地生态等多环节交互,产生二次与多次数据读写。单次复杂任务的 token 消耗从千级提升至万级,存在10 倍量级的上行空间。Ø 多环节协作引致的中间态与历史态需要更长时间的可追溯与更低成本的快速载入,强化了 DRAM/SSD 对中低温数据的承接作用。Ø 3. 媒介升级:从文本到多模态,存储需求进一步提升。Ø 过去以文本为主,当前多模态(图、音、视频)快速普及,视频生成/理解成为重点方向。Ø 工程结论:多模态(尤其视频)在推理端的时空 token 密度更高,需要更大的活跃窗口与更频繁的分页/换入。由此带来HBM 的峰值压力与DRAM/SSD 的持续扩容;SSD 在承接冷段缓存、检索索引与长周期知识库方面弹性最强。来源:《CachedAttention如何以存代算大幅提升LLM推理性价比?》左鹏飞,中泰证券研究所53中泰证券工业制造