aicb:面向真实 GPU 集群的通信系统评测

aicb:面向真实 GPU 集群的通信系统评测

aicb aicb 项目地址: https://gitcode.com/gh_mirrors/ai/aicb

项目介绍

AICB(Artificial Intelligence Communication Benchmark)是一个创新的评测套件,用于评估现实和模拟 GPU 集群中的通信系统,针对新兴的训练和推理应用。不同于现有的网络基准测试,AICB 被设计为生成与实际应用对齐的精确模式的通信工作负载。以大规模语言模型(LLM)训练为例,这些工作负载会随着复杂的模型、并行框架和集体通信库的参数组合而变化。

AICB 的使用场景包括但不限于:GPU 集群的通信系统基准测试和调优、特定应用设置的通信模式研究与分析、以及需要良好描述的工作负载的工具(如仿真器)。

项目技术分析

AICB 包含许多影响通信和计算模式的参数,包括模型参数(如 hidden_size、num_layers、seq_len 等)和框架参数(如 world size、并行策略(TP、PP、DP、SP)、zero level、reduce_bucket_size/allgather_bucket_size 等)。为了通用性,AICB 使用最小的基准测试集合来覆盖这些典型设置,而不是遍历所有组合。

AICB 的技术核心在于生成与真实应用场景紧密匹配的通信工作负载,通过精确控制模型和框架参数,为不同的并行框架和通信模式提供有效的基准测试。

项目技术应用场景

AICB 的应用场景广泛,主要包括:

  1. GPU 集群通信系统基准测试与调优:通过运行 AICB 提供的工作负载,可以评估集群的通信性能,找出潜在的瓶颈,并进行优化。
  2. 通信模式研究与分析:针对特定应用设置,研究其通信模式,为优化并行框架提供依据。
  3. 仿真工具工作负载生成:为仿真器等工具提供精确描述的工作负载,以支持其仿真研究。

项目特点

  1. 精确的工作负载生成:AICB 可以生成与实际应用场景紧密匹配的通信工作负载,提供精确的评测数据。
  2. 灵活的参数配置:用户可以根据需要调整模型和框架参数,生成自定义的工作负载。
  3. 多框架支持:AICB 支持多种并行框架,如 Megatron、Deepspeed 等,可以覆盖不同类型的应用场景。
  4. 易于部署和使用:AICB 提供了详细的安装说明和教程,支持从源代码安装、deb 包安装和 Docker 镜像构建等多种部署方式。

AICB 的设计和实现充分考虑了现代 AI 训练场景的复杂性和多样性,为 GPU 集群的通信系统评测提供了有力的工具。以下是 AICB 支持的部分模型和框架参数的基准测试案例:

| id | 名称 | 序列长度 | 框架 | TP | DP | PP | SP | 专家并行数 | 专家数量 | Zero_level | |:---:|:-------------:|:-------:|:-------:|:---:|:---------------------:|:---:|:------:|:----------:|:--------:|:----------:| | 1 | LLaMA_7B | 2048 | Megatron| 1 | world_size/(PPTP) | 1 | - | - | - | - | | 2 | GPT_13B | 2048 | Megatron| 2 | world_size/(PPTP) | 1 | enable | - | - | - | | 3 | GPT_22B | 2048 | Megatron| 4 | world_size/(PPTP) | 1 | - | - | - | - | | 4 | LLaMA_65B | 4096 | Megatron| 8 | world_size/(PPTP) | 2 | enable | - | - | - | | 5 | GPT_175B | 2048 | Megatron| 8 | world_size/(PPTP) | 8 | enable | - | - | - | | 6 | GPT_175B | 2048 | Megatron| 8 | world_size/(PPTP) | 8 | disable| - | - | - | | 7 | Llama3_405B | 8192 | Megatron| 8 | world_size/(PPTP) | 16 | enable | - | - | - | | 8 | LLaMA_7B | 4096 | Deepspeed| 1 | world_size | 1 | - | - | - | 2 | | 9 | LLaMA_65B | 4096 | Deepspeed| 1 | world_size | 1 | - | - | - | 3 | | 10 | Mistral_87B | 2048 | Megatron| 2 | world_size/(PP*TP) | 1 | enable | 8 | 8 | - |

AICB 的推出为 GPU 集群的通信系统评测提供了全新的视角和工具,有助于推动相关技术的发展和应用。

aicb aicb 项目地址: https://gitcode.com/gh_mirrors/ai/aicb

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蔡怀权

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值