重磅首发!这才是全网最新的大模型技术——AI大模型新型智算中心技术体系深度分析 2024

ChatGPT 系 列 大 模 型 的 发 布, 不 仅 引 爆 全 球 科 技 圈, 更 加 夯 实 了 人 工 智 能(Artificial Intelligence, AI)在未来改变人类生产生活方式、引发社会文明和竞争力代际跃迁的战略性地位。当前各国政府已全面布局 AI,作为 AI 技术发展的关键底座,智算中心的建设和部署在全球范围内提速。

**然而,早期建设的智算中心,以承载中小模型、赋能企业数智化转型为主要目的,在技术标准、生态构建、业务发展和全局运营等各方面仍有待提升。**当追逐大模型成为行业标准动作,面向大模型的新型智算中心(New Intelligent Computing Center,NICC)成为新时期关注的焦点。

**新型智算中心的建设是一个系统工程,需要“算存网管效”多个维度的协同设计。**为构建智能服务的核心和基础,定义新型智算中心技术体系架构,并面向未来大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,希望本文为大家在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助。

新型智算中心技术体系的构建与成熟需要产业链各方凝聚共识,明确行业应用和服务的共性要求,中国移动希望同行业一道,共同推动智算关键技术成熟,共同繁荣国内 AI 生态发展。

一、智算中心行业发展现状

1.1 智能算力跃升为全球第一大算力,智算中心建设如火如荼

1956 年第一次 AI 发展浪潮信息伊始,60 多年来,从理论探索到大数据驱动,从深度学习到大模型智能涌现,AI 正在成为一项新兴的通用型技术,向多场景、规模化、AIGC(AI Generated Content)等方向快速演进。智能算力作为 AI 的底座型技术迎来需求井喷。据统计,到 2030 年,全球智能算力需求增长约 390 倍,增速远超摩尔定律。据《中国算力发展指数白皮书(2022)》指出,我国智能算力也在近几年保持快速增长态势。2021 年我国智算规模已达到 104E FLOPS,占比超过总算力的 50%,预计到 2030 年将升至 70%,成为算力的主要增长极。智算成为全球第一大算力已是大势所趋。

随着 AI 在赋能产业发展、促进数实融合方面发挥出愈加显著的作用,各国政府纷纷发布政策引导其发展。美国为加强其在 AI 领域研发和部署的领导地位,于 2019 年签署《美国人工智能倡议》(American AI Initiative),旨在从国家战略层面重新分配资源,用于 AI 研发,以应对来自“战略竞争者和外国对手”的挑战。

之后,在 2021 年颁布《美国创新与竞争法案》,高度关注 AI 与机器学习、高性能计算、半导体等十大关键技术领域。欧盟在 2021年发布《2030 数字指南针:欧洲数字十年之路》,要求到 2030 年 75% 的欧盟企业使用云计算、大数据和 AI 技术。

我国也高度重视 AI 技术发展,自 2017 年以来国家各部委和地方政府相继出台政策,指导 AI 产业发展规划,鼓励企业加大人才引进和研发力度,并明确指出要积极推动智算中心有序发展。

至此,智算中心作为一种新型算力基础设施为大家所熟悉。不同于传统的云数据中心和超算中心,智算中心是以 GPU、AI 加速卡等智能算力为核心、集约化建设的新型数据中心,为人工智能应用提供所需的算力服务、数据服务和算法服务,使能各行各业数智化转型升级
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

图 1-1 美国智能超算中心

智算中心的战略地位不断提升,为构造未来竞争发展优势,很多国家都在积极开发和部署智算中心。其中,美国能源部及国家科学基金会主导,将智算中心和超算中心结合,建设超大规模智能超算中心,为科学研究提供高性能计算资源(如图 1-1),例如,橡树岭国家实验室的 Summit(3.4E),阿贡国家实验室的 Polaris 和 Aurora(约 10E),劳伦斯伯克利实验室的 Perlmutter(3.8E)等,这些智能超算中心往往具有单体算力大、技术领先等特点。美国科技巨头也是智算中心的主要建设者,包括谷歌的开放机器学习中心(9E),特斯拉 Dojo 集群(据称 2024 年末规模达到 100E),Meta AI 超级计算机(9.9E)等。

国内智算中心建设热潮始于 2020 年,目前已有 40+ 城市建成或正在建设智算中心(如图1-2),包括武汉人工智算计算中心(200P)、南京智能计算中心(800P)、合肥先进计算中心(12P)、鹏城云脑 II(1E)等,其中 12 个位于“东数西算”八大枢纽,这些智算中心主要由地方政府与企业合建,总体投资规模超千亿,旨在带动当地产业智能化升级。

国内互联网和 AI 企业自建的智算中心是国内智能算力的重要组成如阿里在张北和乌兰察布建设的总规模达 15E 的智算中心,旨在结合智能驾驶、智慧城市等业务,探索云服务后的智算服务新业态;百度在山西阳泉建设规模 4E 的智算中心,孵化国内首个正式发布的大模型“文心一言”;商汤作为国内头部 AI 企业,投资 56 亿在上海临港建设人工智能计算中心,规模超 4E,主要面向智慧商业、智慧城市、智慧生活和智能汽车四大板块,发展 AIaaS(AI as a Service)服务。

1.2 早期智算中心在技术、标准、生态、运营等方面仍面临挑战

当前智算中心主要以单供应方全栈体系构建为主,尚未形成业界统一的设计方案,因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。

在技术方面

早期建设的智算中心以承载中小模型为主,AI 服务器大多是 PCIe 机型,配备独立的文件存储,互联方式则以节点内 PCIe 通信与节点间传统以太网为主。

随着通用大模型的普及,智算中心的设计思路需要从原先以单芯片、单服务器粒度提供算力服务的模式,转变为支持巨量并行计算,提供高吞吐、高能效的集群算力。

在标准方面

由于各地智算中心大都是当地政府与 AI 芯片、整机厂家合作建设为主,技术方案深度绑定,容易形成多种派系。亟需通过制定行业标准,一方面降低客户学习和使用的时间成本,另一方面加强产业链上下游企业的协同,促进智算产业的高质量发展。

在生态方面

因为 AI 是软硬深度耦合的技术栈,国外主流产品“先入为主”,主导生态发展,相比之下国内 AI 起步较晚,在芯片算力和软件栈适配方面均存在差距。在智算生态竖井式发展的当下,需要加强引导,为后续 AI 应用的适配和跨架构迁移奠定基础。

在运营方面

各地智算中心的服务对象多为区域内的行业客户、科研院所和高校,较少考虑全局协同,随着东数西算、东数西渲等应用需求不断丰富,需要提前布局跨区域的全局算力调度,提升算力高质量供给和数据高效率流通。

由此可见,未来智算中心亟需朝着技术先进、标准统一、软硬协同、兼容开放的方向发展。

二、新型智算中心技术体系架构和发展路径

2.1 NICC 新型智算中心技术体系架构

结合大模型技术的发展趋势以及对智算中心建设和使用现状的分析,我们认为 ChatGPT 等预训练大模型的出现,必将带来 AI 基础设施的变革,传统的算力堆叠方式已然失效,智算中心需要在互联、算效、存储、平台、节能五大领域进行系统化的重构,才能支撑起大模型对千行百业的革新与改造。为此,中国移动结合自身转型战略和一线客户需求,提出 NICC新型智算中心(New Intelligent Computing Center)。

区别于早期建设的智算中心,NICC 新型智算中心是以高性能 GPU、AI 加速卡等集群算力为核心,集约化建设的 E 级超大规模算力基础设施,具备从硬件设施到软件服务的端到端 AI 全栈环境,支撑超大规模、超高复杂度的模型训练和推理业务,最终赋能行业数智化转型升级。

NICC 技术体系由“三层两域”构成(如图 2-1),分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。其中基础设施层提供计算、存储、网络等硬件资源;智算平台层作为资源管理的核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力,在此之上搭建算力原生平台提供应用跨架构迁移能力。应用使能层集成行业主流 AI 开发框架以供应用开发调用。

智算运维域主要负责对底层 IaaS(Infrastructure as a Service)资源进行管理维护,确保系统的稳定运行;智算运营域对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。

图 2-1 新型智算中心技术体系架构

2.2 NICC 新型智算中心技术发展路径

为释放智能算力极致性能,NICC 的设计方案既要考虑计算、存储、网络三大维度的横向协同,也要兼顾软件平台与硬件资源的纵向协同,同时锚定技术先进、标准统一、软硬协同、兼容开放的目标,广泛且高效地支撑智能化应用场景。我们认为 NICC 的发展将分为两个时期:

**1) 集群时期:**这个时期最显著的特征是数据及模型出现巨量化趋势,千亿级的模型已经出现,对智算底座的算力能力和扩展性均提出高要求。在设备形态方面,GPU、AI 芯片以扣卡模组为主,服务器形态多为单机 8 卡,DPU 按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按照集群的方式部署,相比提升单芯片算力,芯片间的高速互联方案落地更为关键。

互联方案以服务器节点为界限,节点内外高速互联技术各自发展,节点内采用高速计算总线,节点间采用 100G/200G 高速无损网络;在存储方面,原先独立部署的文件、对象存储逐渐向融合存储演进,提升数据交互效率;**平台应具备池化算力分配能力,实现底层智算资源的细粒度分配、动态调度和一体管理。**分布式并行训练框架需要引入提升模型训练效率。为配合高算力需求,散热系统逐渐从风冷向冷板式液冷过渡。

**2) 超级池化时期:**当大模型迈进万亿参数量规模,算力、显存和互联的需求再次升级,智算中心将真正进入超级池化时代,高速互联的百卡组成的“超级服务器(Super Server,S2 )”可能成为新的设备形态。

传统以单机 8 卡为最小单元的智算中心设计思路需要革新,“超级服务器”内需要打造统一的协议实现 CPU、GPU、AI 芯片、显存、存储等池化资源的无缝连接,进而通过 GSE 等高性能交换网络,达到极高吞吐、极低时延的系统算力。

为推动算效能力进一步提升,基于存算一体架构的大算力芯片将开始逐步应用;存储系统在“超级服务器”内支持内存池技术,对外扩展支持全局统一存储;针对日益割裂的智算生态,需要构建基于算力原生平台的跨架构开发、编译、优化环境,屏蔽底层硬件差异,从软件层面最大化使能异构算力融通。散热系统方面,为匹配“超级服务器”设施发挥出最大算力能力,浸没式液冷也将逐渐规模落地。

我们认为,新型智算中心当前已处在“集群时期”,中国移动和部分企业已经按照集群的思想构建 AI 基础设施;面向中远期,我们应重点攻关“超级池化时期”的关键技术,尽快形成行业共识,加速相关核心技术和产业成熟。

图 2-2 新型智算中心技术发展路径

三、新互联——打破算力瓶颈

3.1 集群内的高速卡间互联

大模型浪潮除了带来算法及软件革命,也拉开了 AI 基础设施变革的序幕。一方面,算法结构的创新影响了 AI 芯片在算力精度范围和专用加速电路等方面的设计,但单芯片算力提升的速度仍无法赶上模型参数的发展速率(如图 3-1);另一方面,由于巨量参数和庞大的数据样本,模型的尺寸已经远超出单个 AI 芯片甚至单台服务器的计算能力,亿级以上的模型需要部署在高速互联的多个 AI 芯片上,分布式并行训练。当前,相较于单芯片能力提升,多芯片集群的规模化能力及效率是产业研究的重点。

3.1.1 大模型分布式训练需要高速卡间互联

在 大 模 型 迸 发 出 知 识 涌 现 能 力 之 前,AI 的 主 流 场 景 是 中 小 模 型 承 载 的 计 算 机 视 觉 类(Computer Vision,CV)应用,模型参数在亿级以下,如 ResNet50(~25M)等。此类模型显存占用集中在单卡或者单服务器节点,训练模式多采用单卡运行或单节点内多卡数据并行,每张卡或节点上都有完整的模型结构,卡间通信主要传输训练数据,因此通信需求不频繁,带宽要求在几十 GB 级别,传统的 PCIe 设备形态即可满足其训练需求(如图 3-2)。

图 3-1 模型参数量和 GPU 算力的发展趋势

图 3-2 PCIe 形态的插卡和整机设备

当模型参数量迈进千亿规模,如 GPT3(1750 亿),训练模式也从单芯片运行转变成多芯片分布式运行,数据样本和模型结构被切分到多张卡或者节点上,卡间或者节点间不仅有数据样本的通信,还有模型梯度的频繁传递,对卡间的互联能力在带宽和拓扑结构两大方面产生高要求。

常 用 的 分 布 式 并 行 策 略 主 要 分 为 数 据 并 行(Data Parallel,DP) 和 模 型 并 行(ModelParallel,MP)两大范畴,两者通信操作不同,对卡间的带宽和互联拓扑要求也不同:

数据并行的实现思路是每个计算设备上(每张卡或者节点)都有一个完整模型,将数据集拆分到多个计算设备上同时训练,在反向传播中,各个设备上的梯度进行归约操作求平均(AllReduce),再更新模型参数。通信操作中主要使用到 Ring-Allreduce 算法,多个计算设备采用环状互联拓扑,通信带宽要求多为几 - 几十 GB/s。

● 模 型 并 行 主 要 分 为 流 水 线(Pipeline Parallel,PP) 和 张 量 并 行(Tensor Parallel,TP),其中流水线并行最早由谷歌在 Gpipe 算法中提出,将模型按照层的维度拆分成多个 Stages 放在每个计算设备上,训练过程是逐层顺序计算,通信数据量比数据并行小,对拓扑无特殊要求,点对点互联即可,通信带宽要求在几 - 十几 GB/s;张量并行由英伟达在Megatron-LM 论文中提出,将模型在层内进行切分,训练过程中前向和反向传播中都涉及 Allreduce 操作,通信量大且频繁,计算设备通常要求是全互联(Fully connected,FC)甚至交换拓扑(Switch),带宽需求在几百 GB/s。

表 3-1 不同的分布式并行策略及对应的卡间互联要求

由于大模型训练对芯片互联提出高带宽、低延时以及拓扑结构高扩展性等要求(如表 3-1),PCIe 形态设备在通信带宽和模式上都难以为继。在带宽方面,PCIe 4.0*16 最高为 64 GB/s,无法覆盖百 G 带宽需求。

在通信模式方面,卡间通信必须经过 CPU 绕转甚至跨 CPU NUMA,不仅带来通信延迟,还增加 AI 算法开发难度;在扩展性方面,部分厂家曾采用桥接器搭配自研的通信协议实现卡间高速互联,但因整机主板设计和桥接器的机械应力限制,互联数量基本在 4 卡及以下,扩展能力有限。因此,PCIe 设备形态逐渐被扣卡模组形态的产品(如图 3-3)替代,成为业界大模型训练的主流解决方案。

图 3-3 GPU 扣卡模组形态

3.1.2 “七国八制”的卡间高速互联技术现状

针对中小模型训练,基于 PCIe 设备形态的解决方案已经非常成熟,面向大模型场景,基于扣卡模组的卡间高速互联方案则呈现“七国八制”的局面。目前行业主要分为私有和开放技术两大类。私有方案以英伟达 NVLink 为代表,目前已经发展到第四代(如图 3-4)。

第一代到第二代的演进主要体现在互联拓扑的转变,从 cube 直连演变为 Switch 交换拓扑,第三代在交换拓扑的基础上,通过增加单卡的 NVLink 通道数提升点对点(Peer to Peer, P2P)带宽,第四代则通过完善多种协议内容,进一步实现 C2C(chip to chip)、AI 卡间以及服务器节点间的统一连接,达到最高至 900GB/s 的 P2P 带宽,以及 256 个 H100 的全互联能力,极大地提升了大模型并行训练的效率。

图 3-4 NVLink 卡间互联演进路线

开 放 的 互 联 标 准 来 源 于 OCP 组 织 发 起 的 开 放 加 速 器 基 础 设 施 项 目(Open Accelerator Infrastructure,OAI)[9], 其 定 义 了 业 界 通 用 的 AI 扣 卡 模 组 形 态(OCP Accelerator Module,OAM)和基板拓扑结构(Universal Baseboard,UBB),从而降低整机厂家集成多家 AI 芯片的适配难度。

基于该标准,目前可实现 128GB/s 卡间互联 P2P 带宽,若采用全互联的拓扑结构,整板 8 卡的聚合带宽可高达 896GB/s。当前主流拓扑为 cube 立方和全互联,未来将增加 Switch 拓扑设计,使卡间 P2P 带宽能力大幅升级(如图 3-5 所示)。

在通信协议方面,OAM 推荐采用标准的 PCIe PHY 接口,未对链路层、事务层通信协议进行规范,因此,各 AI 芯片厂家多采用自研的通信协议,如寒武纪的 MLU-LINK、燧原的 GCU-LARE和壁仞的 B-LINK 等。OAM 和 UBB 的技术生态已日趋成熟,国内外已有整机厂家根据 OAM UBB 规范研发相关服务器,并与多家 AI 芯片开发适配,在国内多地智算中心也有应用落地。

图 3-5 OAM 模块的主流互联拓扑

卡间互联能力与 AI 芯片的吞吐性能、芯片间的互联拓扑以及通信协议设计息息相关。其中,AI 芯片的吞吐性能主要由 SerDes 接口速率和通道数(lane)决定,两者增加会带来互联带宽的提升,但也会引起功耗上升、PCB 布局布线困难等问题,是芯片工程实现的经典 PPA(Power、Performance、Area)问题。

芯片间的互联拓扑决定了整个集群的吞吐能力和扩展能力,当前国际主流水平已经采用 Switch 交换或全互联的拓扑结构达到 8 卡或百卡级别的互联,国内则大多采用 cube 类拓扑实现 8 卡成环连接,相比之下在集群总吞吐和规模能力上均有代际差;芯片的通信协议设计决定了集群的互联效率,同时反过来影响芯片的 IO设计与卡间拓扑,当前互联协议栈多为 AI 芯片企业自研设计。

3.1.3 未来万亿级模型的卡间高速互联演进建议

基于 Transformer 的大模型演进趋势遵循 Scaling Law[10],参数量走向万亿级是可预见的必然趋势。新型的算法结构带来了新的分布式训练策略,如专家系统(Mixture-Of-Experts,MoE)并行,高速通信需求进一步扩展至百卡级别,卡间互联的最优解指向 Switch 交换拓扑,构建基于交换拓扑的“超级服务器”是未来 AI 基础设施的趋势。

目前由于 AI 芯片的互联协议均各自为“栈”,且多数企业缺乏从 AI 芯片到交换芯片的全产品设计能力,导致交换芯片与 AI 芯片之间的互联技术难以匹配,因此交换拓扑的集群方案实现面临强生态门槛,导致芯片互联规模发展受限,在一定程度上制约了 AI 基础设施的先进性。为降低设计难度,我们建议从统一高速互联协议入手,以实现百卡规模互联为设计目标,收敛技术路线,推动国内高速互联技术生态从能用到好用的跃变。

目前国内主流方案中,大多数跨机互联主要通过网络协议实现。考虑万亿参数模型对卡间互联的扩展性及开放性要求,可采用统一的计算总线协议作为百卡互联的通信方式,逐步推动总线交换芯片的统一,但现有计算总线的设计仍需在带宽、可靠性等方面进行优化:

**第一,推动 GPU、AI 加速卡支持统一高效计算总线协议。**在大规模并行计算中,各个设备之间高效的数据传输是数据一致性的基本保障,避免由此带来的延迟影响模型训练的效率。**统一的计算总线协议避免了不同协议之间的转换,可以确保设备之间数据及时共享。**该总线协议的设计应聚焦多个 GPU、AI 加速卡之间在大带宽、低时延的基础诉求,并实现缓存一致性的数据访问,确保简化上层应用研发难度,提升流量控制、拥塞控制、网络无损、重传等通信和数据传输能力。

**第二,推动 GPU、AI 加速卡与 CPU、内存等其它核心部件形成开放协议生态。**传统的计算架构在解决异构设备互联问题时会使用不同的通信协议和数据格式,协议转换会引入额外的复杂性和延迟,对整体性能产生不利影响。因此,构建多异构设备之间的高速连接通道,将CPU、GPU、AI 加速卡、DPU、内存、FPGA、SSD 等核心部件进行统一协议互联,使 CPU cache、GPU HBM(High Bandwidth Memory 高带宽内存)、DPU cache、主机 Memory等设备间进行统一寻址,将有利于降低用户开发难度,提升设备间的系统资源共享(内存和带宽)能力。

**第三,推动 GPU、AI 加速卡在功耗和面积上进一步实现集约化设计,满足单芯片计算能力提升和数据中心节能要求。**通过引入更高速率的 SerDes IP,对计算总线协议进行优化,减少芯片上所需的硬件资源和物理面积,以减少通信过程中的能量消耗。低功耗的协议有利于降低单芯片能耗,从而提升大规模并行计算的能效。

未来,期望结合计算总线协议推广、产品规模研发、生态系统建设、优化软件和算法与产业开展广泛合作,构建一个灵活强大的计算总线互联生态系统。

3.2 集群间的高速无损网络

3.2.1 InfiniBand 与 RoCE 是当前主流方案

新型智算中心网络从逻辑上可以分为:出口网络、管理网络、参数网络、存储网络和业务网络,如图 3-6 所示。

图 3-6 新型智算中心功能模块

其中,参数网络主要用于承载 AI 模型训练业务,其通信流量主要具备周期性、流量大、同步突发等特点。尤其在大模型训练过程中,通信具有非常强的周期性,且每轮迭代的通信模式保持一致。

在每一轮的迭代过程中,不同节点间的流量保持同步,同时流量以 on-off 的模式突发式传输,以上通信流量的特点要求参数网络必须具备零丢包、大带宽、低时延、高可靠等特征。

参数网络性能的好坏决定了智算中心提供算力的效率。现阶段,参数网络存在两种主流的 RDMA 技术,分别是 InfiniBand(简称 IB)和基于以太技术的 RoCE(RDMA over Converged Ethernet),如图 3-7 所示。

图 3-7 InfiniBand 与 RoCE 协议栈

InfiniBand 由 IBTA(InfiniBand Trade Association)组织于 1999 年提出,是最早出现的RDMA 技术。InfiniBand 不仅基于网卡硬件实现 L1~L4 层网络协议栈,而且基于集中管理器及端到端的流控机制实现网络无损转发。因此,InfiniBand 机制能够提供超低延迟和超大带宽的网络效果。目前市场上只有 NVIDIA 可提供 IB 交换机、IB 网卡、子网管理器的整套解决方案,但设备采购和维护成本相对较高。

由于从以太网切换到 InfiniBand 网络的成本过于高昂,为推动 RDMA 技术普及,IBTA 在2010 年提出 RoCE 协议标准,允许应用通过以太网实现远程内存访问,使用者只需要更换网卡,而不需要更换现有的以太网网络设备及线缆就可以享受到 RDMA 带来的网络性能提升和 CPU 负载下降等收益,大幅降低硬件成本和维护成本。

随着智能计算业务的快速发展和部署规模不断扩大,采用 RoCE 技术的智算中心网络在性能和规模方面存在的弊端也渐渐显露出来,主要挑战表现为如下几个方面:

挑战一:传统基于流的等价多路径路由(Equal Cost Multi Path,ECMP)负载均衡技术在流量数小、单流流量大的情况下可能失效,导致链路负载不均。当某些物理链路负载过大时,容易出现拥塞甚至网络丢包。

挑战二:分布式训练的多对一通信模型产生大量 In-cast 流量,造成设备内部队列缓存的瞬时突发而导致拥塞甚至丢包,造成应用时延的增加和吞吐的下降。PFC(Priority-basedFlow Control)和 ECN(Explicit Congestion Notification)都是拥塞产生后,再进行干预的被动拥塞控制机制,它们无法从根本上避免拥塞。

挑战三:业界通过 CLOS 架构搭建大规模分布式转发结构来满足日益增长的转发规模需求,在该架构下,各节点分布式运行和自我决策转发路径导致无法完全感知全局信息和实现最优的整网性能。

3.2.2 全调度以太网突破无损以太性能瓶颈

综合当前所面临的挑战,新型智算中心网络将向三个方向进行演进:

一是从“流”分发到“包”分发演进,通过提供逐报文容器动态负载均衡机制,实现单流多路径负载分担,提升有效带宽,降低长尾时延。

二是从“推”流机制到“拉”流机制演进,即从被动拥塞控制,到依赖“授权请求”和“响应机制”的主动流控,最大限度避免网络拥塞的产生。

三是从“局部”决策到“全局”调度演进,即全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,优化网络性能。

基于以上三大演进方向,我们创新提出全调度以太网(Global Scheduled Ethernet,GSE)技术方案 [11],打造无阻塞、高带宽、低时延、自动化的新型智算中心网络,助力AIGC 等高性能业务快速发展(如图 3-8)。

图 3-8 全调度以太网(GSE)技术架构

如图 3-8 所示,全调度以太网(GSE)技术架构主要包括计算层、网络层和控制层 3 个层级,包含计算节点、网络边缘处理节点(Global Scheduled Processor, GSP)、网络核心交换节点(Global Scheduled Fabric, GSF)及全调度操作系统(Global Scheduled Operating System, GSOS)4 类设备。

计算层为 GSE 网络服务层,包含高性能计算卡(GPU 或 CPU)及网卡;GSE 网络层主要实现 GSP 和 GSF 协同,实现基于报文容器的转发及多路径负载、基于报文容器的全局视野的流量调度等技术融合的交换网络;控制层主要包含全局集中式 GSOS,以及 GSP 和 GSF 设备端分布式 NOS(Node OS),实现集中式管理运维及分布式控制转发。

**计算节点即服务器侧的计算卡、网卡,提供高性能计算能力。**GSP 即网络边缘处理节点,用以接入计算流量,并对流量做全局调度;流量上行时具备动态负载均衡能力,流量下行时具备流量排序能力。GSF 即网络核心交换节点,作为 GSP 的上一层级设备,用于灵活扩展网络规模,具备动态负载均衡能力,以及反压信息发布能力。GSOS 即全调度操作系统,提供整网管控的集中式网络操作系统能力。

**综合考虑分布式 NOS、集中式 SDN 控制器的优势,全调度以太网的 GSOS 分为全调度控制器、设备侧 NOS 两大部分。**如图 3-9 所示,GSOS 维护全局网络信息,实现 DGSQ(Dynamic Global Scheduling Queue)系统的建立和维护。NOS 运行设备自身网络功能,提升系统可靠性,降低部署难度,全面提升 GSE 网络自动化及可视化能力。

图 3-9 全调度以太网操作系统架构

智算中心网络通常采用胖树(Fat-Tree)架构,任意出入端口之间存在多条等价转发路径,智算业务流量存在“数量少,单流大”的特点,传统以太网逐流负载分担方式导致链路利用率不均,从而引起网络拥塞。单流多路径是提升智算中心网络有效带宽、避免网络拥塞的关键技术手段。

GSE 技术架构提出一种基于报文容器(Packet Container,PKTC)的转发及负载分担机制,即根据最终设备或设备出端口,将数据包逻辑分组,并组装成长度较长的“定长“容器进行转发,属于同一个报文容器的数据包标记相同的容器标识,沿着相同路径进行转发,以保证属于同一个报文容器的数据包能够保序传输,如图 3-10 所示。

图 3-10 报文容器转发示意图

在负载均衡调度时,报文容器被作为传输单元,但由于报文是逻辑组装,无需额外的硬件开销来对数据包进行组装和还原。在网络中转发时添加的报文容器标识,仍以数据包的形式传输,且无冗余数据填充的问题,带宽损耗小。

另一方面,由于模型训练流量的特殊性,网络会出现“多打一”的流量,引发网络拥塞。如图3-11 所示 ,GSP1 的A1 口和 GSP3 的A3 口同时向 GSP2 的 A2 口发送流量,且流量相加大于 A2 的出口带宽,造成 A2 口出口队列拥塞。这种情况仅通过负载均衡是无法规避的需要全局控制保证送到 A2 的流量不超过其出口带宽。

图 3-11 网络 Incast 流量发生场景

基于 DGSQ 的全局调度技术如图 3-12 所示,在 GSP 上建立网络中所有设备出口的虚拟队列,用以实现本 GSP 节点到对应所有出端口的流量调度。

本 GSP 节点的 DGSQ 调度带宽依赖授权请求和响应机制,由最终的设备出口、途经的设备统一进行全网端到端授权,保证全网中前往任何一个端口的流量既不会超过该端口的负载能力,也不会超出中间任一网络节点的转发能力,可降低网络拥塞发生的概率,减少内部反压机制的产生,提升网络性能。

图 3-12 基于 DGSQ 调度流程

作为一种标准开放的新型以太网技术,GSE 可采用网卡侧无感知的组网方案,即网络侧采用GSE 技术方案,网卡侧仍采用传统 RoCE 网卡。此外,也可以结合网卡能力演进,将 GSE方案各组件的功能在网络组件中重新分工,将部分或全部网络功能下沉到网卡侧实现。

也就是说,在未来的实际应用中,可以将 GSP 的功能全部下沉到网卡以提供端到端的方案,也可以将网络的起终点分别落在网络设备和网卡上,为后续网络建设和设备选型提供灵活的可选方案。

3.2.3 智算中心网络关键技术演进

**1)速率体系升级,功耗成为挑战:**在交换芯片方面,交换芯片作为网络设备的心脏,直接决定设备能力。当前业界单芯片容量已达 51.2T,SerDes 速率也演进到 100G。在接口带宽方面,传统通用数据中心服务器接入带宽以 10G、25G 为主,而 AI 集群普遍采用单卡100G/200G 的高性能网卡,最高端网卡已经达到 400G 接口。

而网络接入层交换机需配套100G/200G 甚至更高速率的 400G 交换机,汇聚层交换机端口也演进到了 800G。因此,芯片容量、单通道数据传输速率的大幅提升和对光模块速率、数量要求的提高,使得网络设备本身功耗极速升高,网络耗能占比不断提升。

在此背景下,CPO(Co-packaged Optics)和 LPO(Linear-drive Plugable Optics) 等技术陆续被提出,其中 CPO 技术将硅光模块和CMOS(Complementary Metal Oxide Semiconductor)芯片集成,缩短芯片和模块间的走线距离,降低成本和功耗。

该技术虽前景可观,但对现有网络建设和运维体系等方面带来许多新挑战。LPO 技术将传统光模块内部 DSP 功能集成到交换芯片中,降低光模块层面信号处理的功耗和延迟,但由于对 SerDes 以及模块侧光芯片要求较高 ,技术可行性及产业成熟度仍待验证。

**2)低时延转发,FEC 技术是关键:**随着端口速率的不断提升,高速信号完整性的挑战也越来越大,需要不断引入更为强大的 FEC(Forward Error Correction,前向纠错)算法。FEC越强大其编解码复杂度也越高,所增加的时延也越大,100G 以上的速率 FEC 所占用的时延已经达到整体转发时延的 20% 左右。

FEC 的过程又可以分为检错逻辑和纠错逻辑。在低速的 FEC 处理中往往没有做上述流程的区分,但随着速率提升、检测及纠错逻辑的复杂,细分差异化处理会变得越来越有意义。检错和纠错分离技术可提前校验数据块内是否存在误码。

在无错情况下,可旁路 FEC 译码流程,消除无错场景下 FEC 收帧和译码时延,降低无错情况下的接口时延,消除高增益 FEC 码字的时延弊端;有错的情况下,会进一步进行纠错处理。

因为发生误码的概率远小于无误码,所以此方式可以优化端口的平均转发时延。灵活 FEC 技术可以根据链路的误码率状态,自动选择合适的 FEC 纠错算法,以便在保持可靠性的同时提供低延迟。

**3)高安全防护,物理层加密有优势:**随着生成式 AI 等应用的发展,对海量算力芯片间高吞吐、低时延数据传输的需求更为迫切,这些数据不仅涉及用户隐私,也关系到企业的安全生产。为了应对日益严峻的数据安全挑战,要对以太网传输链路提供数据安全加密能力并关注数据加解密带来的时延与开销。目前以太网已部署的存量设备可能存在硬件芯片无法更换的情况,链路级数据加密技术需要在现有网络设备的基础上具备前向兼容能力。

现有 MACSec 等网络安全加密技术难以完全覆盖链路层及以上协议层的安全加密。如基于优先级的流量控制帧无法加密帧头部以及掩盖帧发送频率、帧长等流量特征,该方式难以有效防止流量分析攻击,存在安全漏洞。PHYSec 技术将物理层加密的理念与以太网物理层技术相融合,以实现低开销、低时延、高安全和协议透明等特性的安全加密机制,满足数据链路层及所有上层协议的信息防护。

**4)拥塞控制,端网协同是核心:**由于网络中流量的随机性以及路径的多样性,拥塞的出现不可避免。网络出现拥塞后,会造成排队时延增大、网络利用率降低等影响,导致应用性能出现恶化。传统的拥塞控制以被动拥塞控制为主,即收到拥塞信号后被动探测式地调整速率。

典型的如 DCQCN(Data Center Quantized Congestion Notification)算法,发送端根据接收到的 ECN 标记报文,利用 AI/MD 机制(Additive-Increase/Multiplicative-Decrease,线性增速乘性降速)调整发送速率。由于 1 个比特的 ECN 信号无法定量地表示拥塞程度,发送端设备只能探测式地调整发送速率,导致收敛速度慢,性能较差。

**目前,业界典型的优化思路分为两类:**第一类是更加精细化的被动控制,如 HPCC(High Precision Congestion Control,高精度拥塞控制),该算法利用相比 ECN 更精细的信息,提高调速的准确率,避免长时试探;第二类是提前预留 / 主动分配式的主动控制,如 HOMA(一种接收端拥塞控制算法)等,主动为后面的包做资源预留以及分配,避免拥塞的发生。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值