> 数据图表

想关注一下Atlas 800 训练服务器 (型号:9010) 海光 DCU 产品形态 Atlas 300T 训练卡(型号:9000) 寒武纪 MLU370-X8 训推一体人工智能加速卡

2024-7-0
想关注一下Atlas 800  训练服务器  (型号:9010) 海光 DCU 产品形态 Atlas 300T  训练卡(型号:9000) 寒武纪 MLU370-X8 训推一体人工智能加速卡
Atlas 300T 训练卡(型号:9000)是基于昇腾处理器,配合服务器为数据中心提供强劲算力的训练卡,加快深度学习训练进程。该训练卡具有高计算密度、大内存、高带宽等优点,标准全高 34 长 PCIe 卡,适用于通用服务器,满足运营商、互联网、金融等需要人工智能训练以及高性能计算领域的算力需求。该训练卡支持 16 channel 4K(或 64 channel 1080P)60 FPS H.264H.265,此外,该训练卡 JPEG 解码能力为 1080P 2048 FPS(或等价的解码能力), 最高分辨率为 81924320。 Atlas 800 训练服务器(型号:9010)等是基于 Intel 处理器华为昇腾处理器的 AI 训练服务器。该服务器拥有 4U 的超强算力密度,以及 8100G RoCE v2 高速接口的高速网络带宽,芯片间跨服务器互联时延缩短 1070%。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。 MLU370-X8 采用双芯思元 370 配置,为双槽位 250w 全尺寸智能加速卡,提供 24TFLPOSFP32训练算力和 256TOPS INT8推理算力,同时提供丰富的 FP16、BF16 等多种训练精度。基于双芯思元 370 打造的 MLU370-X8 整合了两倍于标准思元 370 加速卡的内存、编解码资源,同时 MLU370-X8 搭载 MLU-Link 多芯互联技术,每张加速卡可获得 200GBs 的通讯吞吐性能,是 PCIe 4.0 带宽的 3.1倍,支持单机八卡部署,可高效执行多芯多卡训练和分布式推理任务。 海光 CPU 系列产品兼容 x86 指令集以及国际上主流操作系统和应用软件。海光三号系列芯片最高规格具备 32 核心 64 线程,拥有多达 128 条 PCle4.0 通道,支持内存频率提升至 3200MHZ。相比上一代产品,海光三号的整体实测性能提升了约 45%。在 SOC 设计、IO 带宽、取指单元、功能模块、防御机制等方面,海光三号均做了不同程度的优化,综合性能大幅跃升。海光 DCU 属于 GPGPU 的一种。CUDA 是一种由 NVIDIA 推出的通用并行计算架 构,包含了应用于 NVIDIA GPU 的指令集(ISA)以及 GPU 内部并行计算引擎。海光 DCU 协处理器全面兼容 ROCm GPU 计算生态,由于 ROCm 和 CUDA 在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至 ROCm 平台,因此 ROCm 也被称为“类 CUDA”。