3.2.1 GenAI驱动需求:顶尖AI模型基于公有云算力集群训练◼ 基础大模型的性能决定AI应用的水平,模型训练要求高性能、稳定和普惠的并行计算支持,全球领先的基础大模型优先基于公有云完成训练。在公有云上部署大模型,不仅能让用户及时获取大模型的最新功能和应用,还可以通过其PaaS(Platform as a Service,平台即服务)层和SaaS(Software as a Service,软件即服务)层为用户提供丰富的工具、组件和应用,支撑千行百业智能化应用。图表:部分基础大模型训练芯片规模及部署方式云基础大模型GPU型号及数量部署方式OpenAIGPT-4、GPT-4.5、GPT-52.2万张 A100、预计几万张H100卡、甚至10万卡微软公共云计算集群亚马逊Anthropic Claude1.6万张H200亚马逊公共云集群谷歌Gemini、Gemini UltraTPUv5(是GPT-4的5倍)公共云,支持客户模型训练;跨多个数据中心的大量TPUv4;利用AWS的云MetaLLaMA、LLaMA32048张A100(未公布,估计至少2万张A100)拥有1.6万AI超级计算机集群,用于训练和推理,服务全球数十亿用户;预计到2024年底,将拥有35万张H100,公司算力总水平相当于近60万块H100xAIGrok 1数万个GPU集群据Techcrunch报道,可能是由Oracle提供(财报显示,Oracle是xAI的云服务商)资料来源:阿里巴巴,中泰证券研究所37