1.大模型训练过程中有什么可以缓解显存不足的办法? (1)模型结构:使用LoRA、adaptor等训练 (2)注意力计算底层优化:flash attention、paged attention、ring attention等 (3)训练框架:使用混合精度训练,使用ZeRO、recomputation、cpu-offload等 (4)训练策略: