AIGC发展到现在,训练模型参数从千亿级飙升到了万亿级。为了完成这么大规模的训练,底层支撑的GPU数量,也达到了万卡级别规模。
以ChatGPT为例,他们使用了微软的超算基础设施进行训练,据说动用了10000块V100 GPU,组成了一个高带宽集群。一次训练,需要消耗算力约3640 PF-days(即每秒1千万亿次计算,运行3640天)。
一块V100的FP32算力,是0.014 PFLOPS(算力单位,等于每秒1千万亿次的浮点运算)。一万块V100,那就是140 PFLOPS。
也就是说,如果GPU的利用率是100%,那么,完成一次训练,就要3640÷140=26(天)。
GPU的利用率是不可能达到100%,如果按33%算(OpenAI提供的假设利用率),那就是26再翻三倍,等于78天。
可以看出,GPU的算力、GPU的利用率,对大模型的训练有很大影响。
一亿是 9 位数。具体表示为 100,000,000,其中包括数字 1 和后面的 8 个零。
一亿是 1 乘以 10 的 8 次方。
1千万亿就是 10 的 15 次方。