解决方案:Qk转置的时候先用单精度来算,softmax的时候再转成FP16
第二个:embeddding 层梯度存在
emdedding层的梯度跟其它层的梯度表示范围相差的非常大,然后会导致这个对损失函数的这个缩放有一定的影响,为了解决这个问题,是直接用一种手动调整的方式,把梯度的范围调整到不影响loss的这样的一个区间上
解决方案:Qk转置的时候先用单精度来算,softmax的时候再转成FP16
第二个:embeddding 层梯度存在
emdedding层的梯度跟其它层的梯度表示范围相差的非常大,然后会导致这个对损失函数的这个缩放有一定的影响,为了解决这个问题,是直接用一种手动调整的方式,把梯度的范围调整到不影响loss的这样的一个区间上