一开始被专门打造用来加速计算机图形渲染的硬件是图形处理器,后来因为其高度并行化架构的优势被发现,GPU慢慢从单一的图形加速器转变成通用的并行计算引擎,这个转变开始于2007年,那时英伟达推出了CUDA并行计算平台,让研究人员能够直接借助GPU的大规模并行处理能力开展通用计算。
现代GPU架构含有数千个计算核心,这些核心是专门为同时处理大量数据达成优化的。拿英伟达H100来说,该芯片具备18432个CUDA核心,而消费级的配备的却是16384个CUDA核心。这样的架构致使GPU在处理矩阵运以及卷积等并行任务之际,效率能够达到传统CPU的数十倍乃至上百倍。
衡量GPU算力的单位常常是FLOPS,也就是每秒浮点运算的次数。当下高端GPU的单精度浮点性能已然达到令人惊叹的水准,H100的峰值性能是67 。只不过RTX 4090的是82.6 。应当留意的是,不同精度时的运算性能存在明显差异,H100在FP8精度状况下的性能能够达到1979 ,这对于人工智能特别关键。
AI的迅猛发展跟GPU算力的增强关系紧密,一个如GPT-3这般有着1750亿参数的大型语言模型进行训练,大概需要3.14×10^23次浮点运算,只用单个GPU去完成这个工作得需要数百年,然而借助GPU集群并行计算,能把训练用时缩短到数周,推理的时候同样依靠GPU算力,实时处理一张图像于CPU上或许要数秒,在GPU上却只需数毫秒 。

除去人工智能,GPU 算力在诸多领域起着关键作用,身处科学计算里,研究人员借助 GPU 去模拟分子动力学、天气预报以及宇宙演化,于医疗领域中,GPU 加快了医学影像分析与药物发现进程,在金融行业内,GPU 被运用于实时风险分析和高频交易 。
摩尔定律渐渐失效之后,只靠制程微缩已然没法满足算力增长的需求了。在这样的背景当中,GPU架构持续不断地演进,出现了各种各样的好几条技术路径。芯片间互联技术比如说的带宽已然达到了900GB/s,远远超过了PCIe 5.0的128GB/s。异构计算把GPU跟CPU以及其他加速器组合到一起,得以形成协同计算体系。而专门针对张量运算加以设计的TPU这类专用芯片,在特定的场景之下能够提供更高的效率。
成为GPU算力提升主要制约因素的,是散热以及能耗,。像H100这样的高功率GPU,其TDP达到了700瓦,这给数据中心的供电与冷却系统提出了严峻挑战。浸没式冷却这类创新技术,能把散热效率提升50%,然而与此同时,却也增加了系统的复杂性以及成本。
对GPU算力利用而言,软件生态同样关键,CUDA平台历经16年发展,已形成一套完整生态系统,该系统涵盖库、工具以及运行时环境,开放标准像和SYML尝试提供跨厂商解决方案,然而其生态系统成熟度依旧滞后于CUDA,编译器技术的进步致使高级语言代码能够更高效地映照到GPU硬件。
边缘计算的场景,针对GPU提出了不一样的需求。边缘设备常常要去平衡算力跟功耗,这推动了低功耗GPU设计的发展。 系列的嵌入式模块,其功耗范围处于10至60瓦之间,不过却能够提供最高达1.3 的算力。
全球算力需求展现出以指数级进行增长的趋势,就行业分析而言,于 2010 年到 2020 年期间,全球数据中心算力需求增长幅度约为 15 倍,在此之中,GPU 算力占比有相当明显的提升,预估到 2030 年时,针对高端算力的需求会是当下的 100 倍还要多。
未来,GPU架构发展展现出多个方向,光子计算技术有希望把能效提高数个数量级,不过仍处在实验室阶段,量子计算与经典GPU的混合架构或许能解决特定类别问题,近内存计算凭借减少数据移动来降低功耗,能让能效提升5倍以上,神经拟态计算则试图模拟人脑结构,达成更高能效的AI计算。
GPU算力发展,推动了人工智能进步,还深刻改变了科学发现与工程创新的方式,随着技术持续演进,GPU会继续于数字化转型里扮演核心角色,给各行业提供强大的计算基础,理解GPU算力的原理、现状以及趋势,对把握技术发展方向有着重要意义。

被折叠的 条评论
为什么被折叠?



