> 数据图表

如何才能华为 UMC 存储架构

2025-11-3
如何才能华为 UMC 存储架构
华为 UMC 将 KV Cache 缓存进行卸载,降低每 Token 推理成本。华为推出以 KV Cache为中心的推理加速套件“推理记忆数据管理器”(Unified Cache Manager,简称 UMC)。融合了多类型缓存加速算法工具,可以分级管理推理过程中产生的 KV Cache 记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每 Token 推理成本。其将实时对话的“极热数据”存在 HBM 中(约十 GB百 GB 级容量),将短期记忆的“热数据”存在 DRAM 中(约百 GBTB 级容量),将长期记忆数据与外部知识等“热温数据”存在 SSD 中(TB 级PB 级容量),通过多级缓存解决 AI 推理体验与成本问题。