亚马逊云科技-Innovate Zhaijian GenAI-优快云博客

亚马逊云科技-10创新窗帘GenAI

关键字: [innovate2024, NVIDIA Nemo, Nvidia Gpu架构, 生成式Ai加速, Nvidia Ai Enterprise, 推理微服务部署, 高性能优化]

本文字数: 1700, 阅读完需: 8 分钟

导读

在这场演讲中,演讲者介绍了NVIDIA GPU与企业级服务如何助力生成式AI。他详细阐述了NVIDIA Hopper GPU和Black Well GPU的架构特点,如Transformer Engine、MIG功能、加密计算、DPX指令等,以及NVIDIA AI Enterprise企业级服务的优势,包括安全性、稳定性和专家支持。重点介绍了NVIDIA Nemo工具,用于高性能推理微服务的部署,并与亚马逊云科技SageMaker产品结合,为用户提供出色的性能体验。

演讲精华

以下是小编为您整理的本次演讲的精华，共1400字，阅读时间大约是7分钟。

在这场内容丰富的演讲中,翟建为我们全面解析了Nvidia在生成式人工智能领域的创新和解决方案。他的分享主要围绕四个核心内容展开,旨在呈现Nvidia在GPU架构、企业级AI服务以及与亚马逊云科技的云服务结合等方面的进展。

首先,翟建着重介绍了Nvidia两款主力GPU架构的功能特点:Hopper GPU和全新的Blackwell GPU。Hopper GPU是Nvidia引入Transformer Engine的产品,借助TensorCore实现了INT8低精度数值格式的加速,从而为大规模模型的训练和推理任务带来了显著的性能提升。此外,Hopper GPU还添加了第二代MIG功能,能够将单个GPU最多划分为7个物理隔离的实例,为用户提供具有专用服务质量的安全GPU实例。值得一提的是,Hopper GPU还引入了加密计算能力,使用户能够在计算过程中真正保护敏感数据,这在金融领域的联邦学习等场景中尤为重要。第四代NVLink互联技术使得GPU之间可实现高速数据传输,而全新的DPX指令则针对动态规划算法等特定场景提供了专门的加速能力。

接着,翟建为我们详细解析了Nvidia全新的Blackwell GPU架构。作为一款强大的芯片,Blackwell GPU整合了两个物理芯片,拥有高达20亿晶体管,其算力能力最高可达20PF,是Hopper GPU的5倍之多。在Blackwell GPU中,Nvidia添加了第二代Transformer Engine,支持INT4和INT6的浮点精度,更好地服务于大规模语言模型的推理与训练任务。第五代NVLink互联技术使得GPU间节点内的互联速度飙升至每秒1.8TB,且最多可扩展至578块GPU。另外,Blackwell GPU内置的RAS引擎能够识别潜在的早期故障,最大限度减少系统宕机时间,提高可靠性。值得关注的是,Blackwell GPU进一步增强了安全AI能力,能够在保证性能的前提下为大模型和敏感数据提供更快更安全的保护。此外,Blackwell GPU新增的加密计算功能能够近乎以线性速率维护PCIe和NVLink之间的流量传输,最大可扩展至128块GPU的大规模加密计算。另一个创新是压缩引擎,支持Snappy、Deflate、LZ4等格式的数据压缩,最高压缩速率可达800GB/s,并允许对压缩数据直接进行操作。

在阐述GPU架构的同时,翟建还着重强调了Nvidia与CPU的Chip-to-Chip(C2C)能力。传统的加速系统通过PCIe链路实现CPU和GPU之间的数据传输,但无法统一CPU内存和GPU显存的访问模型,成为性能瓶颈。而Nvidia的C2C能力打破了这一限制,使Nvidia Grace CPU与GPU之间实现高速链路传输,形成一致的统一内存访问,简化编程流程并提升整体能耗比。

在介绍GPU架构之后,翟建转向Nvidia AI Enterprise(NVAI Enterprise)这一企业级AI服务。作为一个端到端的云原生软件平台,NVAI Enterprise旨在加速包括数据科学在内的多种GPU加速应用,并提供易于使用的微服务工具等,确保AI业务从原型到生产环境的平稳过渡。其核心能力包括安全咨询、企业支持、集群管理、基础设施优化以及生产级部署等,最大限度延长AI正常运行时间,降低软件漏洞风险。NVAI Enterprise支持多种社区模型、定制化模型以及Nvidia自身提供的模型,涵盖大语言模型、推理、语音识别、翻译、生命科学、内容理解和路径规划等广泛领域。在亚马逊云科技等Nvidia认证的云环境中,用户可充分利用NVAI Enterprise的核心加速能力。

在NVAI Enterprise中,翟建着重介绍了一款名为NIM(Nvidia AI Micro Services)的推理微服务工具集。NIM以预构建的容器形式提供工业级标准API进行访问,支持定制化模型的部署,并基于Nvidia不断升级的优化技术持续获取更快的访问速度,包括吞吐量提升和延迟降低。从技术层面看,NIM容器化的基础基于Nvidia CUDA运行时,通过多层库、TensorRT推理SDK和TensorTLM大模型推理工具进行了优化,包括Nvidia最新的INT8量化技术。容器内通过Triton Inference Server对外提供推理服务访问,并可借助Kubernetes等云原生技术栈实现对NIM容器的调度和企业级管理。

与手动部署模型相比,采用NIM的最大优势在于大幅简化了部署流程,同时兼具优化加速和企业级支持的特点。如果手动部署,用户需要不断地自行适配驱动、CUDA运行时、框架版本等,且获得的模型访问方式未必是最优的。而NIM通过适配好的驱动库、运行时、框架以及Nvidia不断升级的优化技术,确保用户在部署快捷的同时也获得了性能的极大提升。

目前,NIM已覆盖了大语言模型、语音视觉、生命科学、仿真和数字人等多个领域,用户可从Nvidia NGC平台获取相应的预构建容器,并在亚马逊云科技等云平台上部署使用,充分结合两者的便利性和高性能优势。值得注意的是,Nvidia将持续优化NIM,用户可以获得不断升级的加速能力,今天使用的GPU性能可能远超昨天的水平。所有Nvidia在GPU内核优化、精度降低、延迟减少等方面的成果,都将凝聚于NIM之中,为用户带来卓越的性能体验。翟建特别强调,如果用户在亚马逊云科技上使用SageMaker等服务,可以非常轻松便捷地将NIM与这些服务结合使用,充分发挥两者的协同优势,快速部署推理能力。

在演讲的最后,翟建强调了Nvidia与亚马逊云科技的紧密合作关系。NIM与亚马逊云科技的服务如SageMaker无缝结合,用户可以轻松便捷地在亚马逊云科技云平台上部署和使用NIM,充分发挥两者的协同优势。未来,Nvidia和亚马逊云科技将持续深入协作,为客户带来更多创新的生成式AI产品和解决方案。

总的来说,这场精彩的演讲全面展示了Nvidia在GPU架构创新、企业级AI软件平台建设以及与云服务的融合应用等方面的卓越成就。无论是革命性的Blackwell GPU强大芯片,拥有20亿晶体管和20PF算力;还是功能强大的NVAI Enterprise软件平台和NIM推理微服务工具,提供INT8量化等优化技术;亦或是与亚马逊云科技的紧密协作,实现高达1.8TB/s的GPU互联速度,都彰显了Nvidia在生成式AI领域的领先地位和创新实力。通过与亚马逊云科技服务的无缝集成,用户可以充分利用两者的优势,快速部署高性能的推理服务。相信在Nvidia与亚马逊云科技的持续合作下,生成式AI的性能和应用前景将得到进一步的提升和拓展。

下面是一些演讲现场的精彩瞬间：

亚马逊云科技与NVIDIA长期紧密合作,为客户提供GPU加速方案,在生成式AI时代引领创新。

NVIDIA Hopper GPU引入了Transformer Engine和IP8低精度数值格式,实现了大型模型训练和推理的极致性能加速。

在NVIDIA Hopper GPU中引入了第二代MIG功能,将大GPU物理划分为多个小GPU实例,提供专用服务质量和安全隔离。

英伟达在Hopper GPU架构中引入了DPX指令,可极大加速动态规划、路径优化和基因组学分析等领域的性能。

英伟达Grace CPU与GPU之间的Chip to Chip高速链路传输技术,打破了PCIe传输瓶颈,实现统一内存访问,简化编程流程并提升能耗比。

云计算能够避免软硬件复杂的依赖关系,减少版本适配和容错的麻烦,为用户提供丰富便利。

华为云NIM与亚马逊云科技SageMaker产品相结合,为用户提供高效便捷的AI推理部署能力。

总结

NVIDIA正在引领生成式AI的创新浪潮。本次演讲重点介绍了NVIDIA最新的GPU架构Hopper和Black Well,以及NVIDIA AI Enterprise解决方案。Hopper GPU具有Transformer Engine、MIG功能、加密计算、NVLink互联等创新特性,而Black Well GPU则进一步提升了算力、互联带宽、可靠性和安全性。NVIDIA AI Enterprise为企业提供了端到端的云原生AI软件平台,包括集群管理、基础设施优化、生产部署等,并支持多种领域模型。其中,NIM工具可加速Foundation Model在任何云平台上的部署,与亚马逊云科技SageMaker产品深度集成,为用户带来高效便捷的推理服务体验。NVIDIA通过不断创新软硬件,为企业级AI应用提供了全方位的加速与优化,推动生成式AI的落地应用。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选，通过生成式AI技术栈，提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国，亚马逊云科技通过安全、稳定、可信赖的云服务，助力中国企业加速数字化转型和创新，并深度参与全球化市场。