
大模型微调
文章平均质量分 85
冰蓝蓝
开心 健康 努力
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何提升大模型的训练效率deepspeed 和 flash attition
【代码】如何提升大模型的训练效率deepspeed 和 flash attition。原创 2025-03-23 14:32:22 · 897 阅读 · 0 评论 -
【无标题】
∇θJθ∂J∂θ1∂J∂θ2∇θJθ∂θ1∂J∂θ2∂J$ J(\theta) $:损失函数(如交叉熵、均方误差)$ \theta $:模型参数(权重矩阵、偏置项等)原创 2025-03-22 22:22:39 · 970 阅读 · 0 评论 -
大模型微调
LoRA(Low-Rank Adaptation):通过低秩矩阵分解调整部分参数,减少计算量。梯度检查点(Gradient Checkpointing):用时间换空间,减少显存占用。优化器选择:AdamW、LAMB(适合大模型)、8-bit Adam(节省显存)。评价指标:ROUGE(文本生成)、BLEU(翻译)、准确率/F1(分类)。Megatron-LM(NVIDIA):专为大规模模型训练优化。早停(Early Stopping):根据验证集性能终止训练。原创 2025-03-22 21:14:59 · 440 阅读 · 0 评论