一文终于把深度学习中的微调、提炼和迁移学习搞懂了！！

大模型微调部署

于 2025-03-04 16:17:10 发布

阅读量726

点赞数 17

文章标签：深度学习人工智能自然语言处理语言模型 AI大模型 LLM ai

本文链接：https://blog.youkuaiyun.com/star_nwe/article/details/146018540

版权

在深度学习中，微调（Fine-tuning）、提炼（Distillation，即知识蒸馏）和迁移学习（Transfer Learning）是三种常见的模型优化技术，主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。

一、微调

微调是指在一个已经训练好的模型（通常是预训练模型）的基础上，对部分或全部参数进行进一步训练，以适应特定的新任务。

通常，预训练模型是在大规模数据集（如ImageNet）上训练得到的，它能够学习到一些通用的特征。微调则是在此基础上，通过对新的任务进行训练，进一步调整模型参数，使其更好地适应新任务。

预训练

首先，使用大规模的数据集（如ImageNet）预训练一个深度学习模型，获取模型的基本能力和通用特征。
冻结部分层（可选）

一般来说，模型的底层（靠近输入层）提取的是通用特征，如边缘、纹理，而高层（靠近输出层）提取的是特定于任务的高级特征。因此，可以冻结底层权重，仅训练高层参数。
调整模型结构

如果新任务的类别数与原任务不同，需要替换最后的全连接层或输出层。
训练

使用新数据集进行训练，通常会使用较小的学习率，以免破坏已经学到的通用特征。

提炼（知识蒸馏）是一种模型压缩技术，它将一个大型且复杂的模型（通常叫做教师模型）的知识转移到一个较小、较简洁的模型（叫做学生模型）中。

通过提炼（知识蒸馏），学生模型可以学习到教师模型的行为和预测模式，达到类似的效果，同时保持较小的模型尺寸和更快的推理速度。

在这里插入图片描述

教师模型训练

首先训练一个大型且复杂的教师模型。
生成软标签

教师模型对训练数据进行推理，产生软标签（soft labels），即模型对每个类别的预测概率。

这些软标签包含了类别之间的关系（如 80% 猫，15% 狐狸，5% 狗），比硬标签（100% 猫）更有信息量。
学生模型训练

学生模型通过最小化与教师模型输出（软标签）之间的差异来进行训练。

学生模型在训练过程中不仅学习正确标签，也学习教师模型对样本的“理解”，从而能够更好地逼近教师模型的性能。

常见的损失函数是：

在这里插入图片描述

其中

迁移学习是一种在一个任务中学习得到的知识用于另一个相关任务的技术。

简单来说，迁移学习利用已有的知识，从源领域（源任务）转移到目标领域（目标任务）。这通常在目标领域的数据不足时特别有用，能够避免从零开始训练模型。

特征迁移

直接使用预训练模型的低层特征，如 CNN 提取特征后，用 SVM、随机森林等进行分类。

适用于计算机视觉任务，如使用 ResNet 作为特征提取器。
参数迁移（Fine-Tuning）

迁移预训练模型的参数到新任务，并进行微调。

例如，在 ImageNet 上训练的 ResNet，在医疗影像分类上微调。
跨领域迁移

适用于不同数据分布的场景，如从英文 NLP 任务迁移到中文任务。

常用方法包括对抗训练、自监督学习等。
跨任务迁移

让模型同时学习多个任务，提高泛化能力。

如在 NLP 领域，BERT 既能用于情感分析，也能用于问答任务。