采用 NVIDIA DGX A100 系统和 Mellanox 频谱 以太网交换机的 NetApp ONTAP AI NVA 设计
NetApp 公司 David Arnette 和 Sung-Han Lin
摘要
本文档介绍了经过 NetApp 验证的机器学习(ML)和人工智能(AI)工作负载架构,该架构使用 NetApp® AFF A800 存储系统,NVIDIA DGX ® A100 系统和 NVIDIA® Mellanox® Spectrum ® SN3700V 200 Gb 以太网交换机。此设计采用基于融合以太网的 RDMA(RoCE)作为计算集群互连网络结构,可为客户提供完全基于以太网的架构来处理高性能工作负载。本文档还包括所实施架构的基准测试结果。
目录
内容提要
计划摘要
- NetApp ONTAP AI 解决方案
深度学习数据管道
解决方案概述
- NVIDIA DGX A100 系统
- NVIDIA NGC
- NetApp AFF 系统
- NetApp ONTAP 9
- NetApp FlexGroup
- NetApp Trident
- NVIDIA Mellanox 网络
技术要求
- 硬件要求
- 软件要求
解决方案架构
- 网络拓扑结构和交换机配置
- 存储系统配置
- 主机配置

本文介绍了一种针对机器学习和人工智能工作负载的NetApp ONTAP AI参考架构,使用NetApp AFF A800存储系统、NVIDIA DGX A100系统及Mellanox Spectrum SN3700V交换机构建。该架构支持高性能计算,通过验证测试确保了卓越的训练性能,并允许客户灵活地独立扩展计算和存储资源。
最低0.47元/天 解锁文章
560

被折叠的 条评论
为什么被折叠?



