aicb:面向真实 GPU 集群的通信系统评测
aicb 项目地址: https://gitcode.com/gh_mirrors/ai/aicb
项目介绍
AICB(Artificial Intelligence Communication Benchmark)是一个创新的评测套件,用于评估现实和模拟 GPU 集群中的通信系统,针对新兴的训练和推理应用。不同于现有的网络基准测试,AICB 被设计为生成与实际应用对齐的精确模式的通信工作负载。以大规模语言模型(LLM)训练为例,这些工作负载会随着复杂的模型、并行框架和集体通信库的参数组合而变化。
AICB 的使用场景包括但不限于:GPU 集群的通信系统基准测试和调优、特定应用设置的通信模式研究与分析、以及需要良好描述的工作负载的工具(如仿真器)。
项目技术分析
AICB 包含许多影响通信和计算模式的参数,包括模型参数(如 hidden_size、num_layers、seq_len 等)和框架参数(如 world size、并行策略(TP、PP、DP、SP)、zero level、reduce_bucket_size/allgather_bucket_size 等)。为了通用性,AICB 使用最小的基准测试集合来覆盖这些典型设置,而不是遍历所有组合。
AICB 的技术核心在于生成与真实应用场景紧密匹配的通信工作负载,通过精确控制模型和框架参数,为不同的并行框架和通信模式提供有效的基准测试。
项目技术应用场景
AICB 的应用场景广泛,主要包括:
- GPU 集群通信系统基准测试与调优:通过运行 AICB 提供的工作负载,可以评估集群的通信性能,找出潜在的瓶颈,并进行优化。
- 通信模式研究与分析:针对特定应用设置,研究其通信模式,为优化并行框架提供依据。
- 仿真工具工作负载生成:为仿真器等工具提供精确描述的工作负载,以支持其仿真研究。
项目特点
- 精确的工作负载生成:AICB 可以生成与实际应用场景紧密匹配的通信工作负载,提供精确的评测数据。
- 灵活的参数配置:用户可以根据需要调整模型和框架参数,生成自定义的工作负载。
- 多框架支持:AICB 支持多种并行框架,如 Megatron、Deepspeed 等,可以覆盖不同类型的应用场景。
- 易于部署和使用:AICB 提供了详细的安装说明和教程,支持从源代码安装、deb 包安装和 Docker 镜像构建等多种部署方式。
AICB 的设计和实现充分考虑了现代 AI 训练场景的复杂性和多样性,为 GPU 集群的通信系统评测提供了有力的工具。以下是 AICB 支持的部分模型和框架参数的基准测试案例:
| id | 名称 | 序列长度 | 框架 | TP | DP | PP | SP | 专家并行数 | 专家数量 | Zero_level | |:---:|:-------------:|:-------:|:-------:|:---:|:---------------------:|:---:|:------:|:----------:|:--------:|:----------:| | 1 | LLaMA_7B | 2048 | Megatron| 1 | world_size/(PPTP) | 1 | - | - | - | - | | 2 | GPT_13B | 2048 | Megatron| 2 | world_size/(PPTP) | 1 | enable | - | - | - | | 3 | GPT_22B | 2048 | Megatron| 4 | world_size/(PPTP) | 1 | - | - | - | - | | 4 | LLaMA_65B | 4096 | Megatron| 8 | world_size/(PPTP) | 2 | enable | - | - | - | | 5 | GPT_175B | 2048 | Megatron| 8 | world_size/(PPTP) | 8 | enable | - | - | - | | 6 | GPT_175B | 2048 | Megatron| 8 | world_size/(PPTP) | 8 | disable| - | - | - | | 7 | Llama3_405B | 8192 | Megatron| 8 | world_size/(PPTP) | 16 | enable | - | - | - | | 8 | LLaMA_7B | 4096 | Deepspeed| 1 | world_size | 1 | - | - | - | 2 | | 9 | LLaMA_65B | 4096 | Deepspeed| 1 | world_size | 1 | - | - | - | 3 | | 10 | Mistral_87B | 2048 | Megatron| 2 | world_size/(PP*TP) | 1 | enable | 8 | 8 | - |
AICB 的推出为 GPU 集群的通信系统评测提供了全新的视角和工具,有助于推动相关技术的发展和应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考