> 数据图表

如何才能DeepSeek用于推理服务的H800节点数量随时间峰值变化

2025-5-6
如何才能DeepSeek用于推理服务的H800节点数量随时间峰值变化
4、算力瓶颈影响 Agent 服务的用户体验 在用户量激增、模型复杂度提升、应用场景多样化的背景下,算力瓶颈问题日益凸显,具体表现为服务响应延迟、服务不稳定甚至服务中断等情况,导致用户体验受损,虽然可以通过优化 API 调用方式(如批量请求、异步请求)等方法缓解,但根本原因在于瞬时或持续的算力需求超出了服务提供商的承载能力。 如据新京报贝壳财经记者测试发现 Manus 回答问题一般耗时 15 分钟,根据任务难度的不同,Manus 执行任务的时间也不同,如对“设计采访提纲与视频采访脚本方案”等几项文字类任务,Manus 的执行时间约为 15 分钟至 20 分钟,而对于“设计金融科普互动产品”这项涉及网页交互的任务,Manus 耗时 31 分钟。极客公园测试,用扣子的探索模式制定一份日本旅行攻略,做出这份旅行攻略的时间在 10 分钟以上。 同时为了保证用户体验 Agent 服务需要留出一定应对用户流量波动的冗余算力。用户对服务的访问量往往具有不确定性,会因各种因素如节假日、特殊事件、营销活动等出现峰值。DeepSeek 官方在知乎发布的技术报告指出,由于白天的服务负荷高,晚上的服务负荷低,因此 DeepSeek 实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。但并非所有 Agent服务提供商都有训练模型等需求可以充分利用闲时算力,因此能满足用户峰值的算力必然会存在一定的冗余。