为可扩展、高效的AI采用新的服务器设计
在 H100 发布之前,英伟达和在热力、电气和机械领域拥有专业知识的亚马逊云科技工程团队合作设计了服务器,以利用 GPU 提供大规模 AI,重点关注亚马逊云科技基础设施的能源效率。在某些 AI 工作负载下,GPU 的能效通常是 CPU 的20倍,对于 LLM 而言,H100 的能效比 CPU 高 300 倍。
双方的合作包括开发系统散热设计、集成式安全和系统管理、与 Amazon Nitro 硬件加速虚拟机管理程序一起实现安全性,以及针对亚马逊云科技定制 EFA 网络结构的英伟达 GPUDirect™ 优化技术。
在亚马逊云科技和英伟达专注于服务器优化工作的基础上,两家公司现已开始合作开发未来的服务器设计,以借助新一代系统设计、冷却技术和网络可扩展性提高扩展效率。
英伟达与亚马逊云科技共同设计服务器,利用GPU进行大规模AI运算,尤其在某些工作负载下,GPU能效远超CPU。H100GPU在LLM任务中能效比CPU高300倍。双方合作涉及散热设计、系统安全、GPUDirect™优化及定制EFA网络结构,未来将继续研发更高效能的服务器解决方案。
919

被折叠的 条评论
为什么被折叠?



