单精度浮点数fp32,
半精度浮点数fp16,
还有bf16。
用fp32+fp16 或者 fp32+bf16 混合精度训练模型时,会出现数据上溢和下溢。
数据上溢:数据范围超过fp16/bf16表示范围。
数据下溢:数据最小分辨率低于fp16/bf16能表示的最小分辨率,导致梯度等参数明明有更新时,因为fp16/bf16分辨率不够细导致参数并无变化。
单精度浮点数fp32,
半精度浮点数fp16,
还有bf16。
用fp32+fp16 或者 fp32+bf16 混合精度训练模型时,会出现数据上溢和下溢。
数据上溢:数据范围超过fp16/bf16表示范围。
数据下溢:数据最小分辨率低于fp16/bf16能表示的最小分辨率,导致梯度等参数明明有更新时,因为fp16/bf16分辨率不够细导致参数并无变化。