LLM微调全流程详解：从数据准备到模型部署，一篇搞定大模型微调(建议收藏)

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 404 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #学习 #产品经理 #ai #程序员 #转行

21、LLM 的微调流程是什么?

微调（Fine-tuning）LLMs 指的是在特定任务或数据上对预训练好的模型进行进一步训练，使其能更好地适应目标场景的过程，其主要流程如下：

数据准备：

数据收集：根据目标任务收集高质量、有代表性的数据；
数据预处理：对原始数据进行清洗，如去除噪声、重复项、不相关内容等。根据模型输入要求对数据进行格式化；
数据划分：将数据分为训练集、验证集和测试集，为后续模型训练做准备。

模型选择： 根据模型规模、架构和任务目标，选择一个合适的预训练模型；

微调策略选择： 常用的微调策略如下所示

全参数微调：更新模型所有参数。计算成本高，但通常能得到较好的效果；
参数高效微调（PEFT）：只更新模型中一小部分参数，或引入少量新参数进行训练。常见的方法有：LoRA、Prefix-tuning、Prompt-tuning、QLoRA；
指令微调：将任务描述转换为指令形式，对模型进行微调，使其能遵循指令进行响应。

训练配置： 主要是配置的参数有 Optimizer、Learning Rate、Batch Size、Epochs、Loss function；

模型训练：

使用训练集对模型进行训练。在每个 epoch 之后，使用验证集来评估模型性能，监控 loss 和评估指标的变化；
根据模型在验证集的表现进行 Early Stopping，防止过拟合。

模型评估与部署：

使用测试集对训练好的模型进行最终评估，确定模型在新数据上的泛化能力；
将微调后的模型部署到实际应用中，并持续监控其性能。

22、什么是 Catastrophic Forgetting ? 如何在微调中缓解它?

灾难性遗忘（Catastrophic Forgetting） 是指神经网络在学习新任务时，会快速且大幅度的遗忘之前学到的知识的现象。

对于 LLMs 来说，当在一个特定任务上进行微调时，模型可能会丧失其在预训练阶段学到的通用语言理解和生成能力，从而退化成只能很好完成微调的任务，而在其他任务上表现很差。

缓解灾难性遗忘的常用方法有：

Experience Replay：在微调新任务时，将部分预训练的数据混合到新的训练集中，让模型同时学习。
Regularization：
- L2 正则化：对权重施加正则化约束，防止权重在微调过程中发生剧烈变化；
- 弹性权重巩固（EWC）：识别对旧任务重要的参数，在学习新任务时减缓对这些参数的更新速度；
- LR 调度：在微调后期逐渐降低 LR，使模型参数更新更加平稳。
PEFT：只更新模型的一小部分参数，或者引入少量新的可训练参数，冻结预训练模型的大部分参数，有效保留了模型在预训练阶段学到的通用知识，从而显著降低灾难性遗忘的风险；
Multi-task Learning：将多个相关任务的数据混合在一起进行训练，让模型到更通用的特征，防止对特定任务过拟合；
Knowledge Distillation：将原始的 LLMs 作为“教师模型”，微调后的模型作为“学生模型”。在微调时，学生模型不仅要学习新任务任务，还要学习教师模型的输出分布（soft label），从而保留教师模型的通用知识。

在这里插入图片描述

23、什么是 PEFT? 它为何有用?

参数高效微调（Parameter-Efficient Fine-Tuning, PEFT） 是一种在 LLMs 微调方法，仅更新少量模型参数或引入少量额外参数。核心思想是：在 LLMs 已经通过预训练掌握了丰富的通用知识的情况下，不需要重新训练所有参数来适应特定任务，只需对模型进行“小修小补”即可。

PEFT 非常好用，主要体现在以下几个方面：

降低计算需求：只更新或引入少量参数（通常只占总参数的 0.01% 到 1%），大幅降低了对显存和计算能力的需求，大幅降低了 LLMs 研究和部署的门槛；
缓解灾难性遗忘：由于冻结了预训练模型的大部分参数，有效保留了模型的通用知识，减少灾难性遗忘的风险，使模型在适应新任务的同时，能保持较强的泛化能力；
加速训练：PEFT 需要训练的参数量大大减少，训练速度比全参数微调快得多，大大缩短了实验周期和模型迭代时间；
提高存储和部署效率：微调后的模型只需要存储额外训练的少量参数，使得微调后的模型文件显著减小，方便存储、传输和部署。在部署时，只需要加载原始的冻结模型和少量的 PEFT 参数，就可以实现定制化的功能；
更好的性能表现：虽然只更新少量参数，但 PEFT 能更有效地利用预训练模型已经学到的强大表示能力，使它们在许多下游任务上可以达到甚至超越全参数微调的性能。

24、Prompt engineering 与微调有何不同?

Prompt Engineering（提示工程） 和微调（Fine-tuning） 是两种用于调整 LLMs 以适应特定任务的不同方法，它们在成本、灵活性、效果和应用场景上存在显著差异：

总的来说：

提示工程更像是 “与模型对话”，通过改变“问题”来引导模型给出更好的结果，它不改变模型的内在知识，适用于模型已经具备相关能力，但需要更精准输出的场景；
微调更像是 “给模型上课”，通过额外的训练让模型学习新知识、适应新场景，适用于模型需要掌握特定领域知识，或在特定任务上达到更高专业水平的场景。

在实际应用中，通常是将提示工程和微调相结合起来：先通过微调让模型掌握特定领域的知识或能力，再通过提示工程来引导微调后的模型生成更精确的输出。

25、Learning rate 在微调 LLMs 中的作用是什么?

学习率（LR） 是深度学习中一个重要超参数，决定了模型在每次参数更新时沿着梯度方向前进步长的大小。

在微调 LLMs 时，学习率主要作用有：

控制参数更新的步长：

LR 直接决定了模型在每次迭代中更新权重和偏差的幅度；
过大的 LR 可能会使模型在损失函数上“跳过”最优解，导致训练不稳定，甚至发散，表现为损失值震荡或不收敛；
过小的 LR 使参数更新缓慢，导致模型收敛速度非常慢，甚至陷入局部最优解。

影响微调过程的稳定性和收敛性：

在对 LLMs 微调时，通常建议使用较小的 LR。因为 LLMs 已经在一个庞大的数据集上进行了预训练，学习了大量的通用知识和语言模式。微调的目标是让模型适应特定任务，而不是从头开始学习。较大的 LR 可能会破坏预训练阶段学到的有用信息，导致灾难性遗忘；
较小的 LR 有助于模型在现有知识基础上进行精细调整，从而保持模型的稳定性和泛化能力。

避免灾难性遗忘（Catastrophic Forgetting）： 较大的 LR 容易导致模型快速遗忘预训练阶段学到的通用知识。设置合适的（通常是较小的）LR，可以避免参数大幅度变化，从而在一定程度上缓解灾难性遗忘；

选择合适的 LR 是微调 LLMs 成功的关键之一，常见的起点是预训练学习率的十分之一或更小（如、）。

评估与指标

26、如何评估 LLMs 的性能?

LLMs 应用场景非常广泛，其性能需要从多个维度来评估：

定量评估（Quantitative Evaluation）：通过各种指标和数据集来衡量模型性能的客观方法

任务特定指标：根据 LLMs 的具体任务，会选择相应的评估指标
- 文本生成：BLEU, ROUGE, METEOR, BERTScore
- 文本分类：Accuracy, Precision, Recall, F1-score
- 问答系统：EM (Exact Match), F1-score
- 摘要：ROUGE
- 翻译：BLEU
通用语言理解能力：通过在各种基准测试集（GLUE、SuperGLUE等）上进行评估，来衡量模型对语言的综合理解能力；
困惑度（Perplexity）：是衡量模型对文本建模好坏的一个重要指标

定性评估（Qualitative Evaluation）：使用人工审查模型的输出，以评估其流畅性、连贯性、逻辑性、创造性以及是否符合人类预期。虽然主观，但对于捕捉定量指标难以衡量的问题至关重要，如模型是否会产生幻觉（hallucination）、是否存在偏见或不安全内容；

效率与资源消耗：在实际部署中，模型的推理速度、内存占用、计算成本也是重要的评估指标；

鲁棒性与泛化能力：评估模型在面对噪声数据、对抗性攻击或未见过的数据时的表现，以及其在新领域或新任务上的泛化能力；

安全性和伦理问题：评估模型是否存在偏见、歧视，是否会生成有害、不当或虚假内容，以及其对隐私的保护能力。

27、BLEU 分数是什么? 其局限性是什么?

BLEU (Bilingual Evaluation Understudy) 是一种用于评估机器翻译质量的度量指标。通过比较机器翻译的输出与一个或多个高质量的人工参考译文之间的重叠程度来计算分数：

BLEU 核心思想是衡量候选译文中的N-gram在参考译文中出现的频率：

Modified N-gram Precision: 对于每个 N-gram（如n=1,2,3,4），计算其在候选译文中出现的次数与在参考译文中出现的次数的最小值之和，然后除以候选译文中该 N-gram 出现的总次数；
BP（Brevity Penalty）：为了避免模型生成过短的译文来获得高精度，对机器译文长度进行惩罚。

BLEU 计算公式如下，分数越高越好：

尽管 BLEU 广泛应用于机器翻译领域，但它存在一些显著的局限性：

只考虑词汇重叠，不考虑语义：BLEU 仅仅基于词语或短语的字面匹配，无法捕捉到语义上的相似性。即使两个句子表达了相同的意思，但使用了不同的词语，BLEU 分数也可能很低；
对同义词不敏感：如果机器译文使用了参考译文的同义词，BLEU 无法识别这种等价性，从而低估了翻译质量；
对语法和流畅性评估不足：BLEU 无法直接评估翻译的语法正确性或流畅度；
需要多个参考译文才能更准确：为了提高评估的鲁棒性，通常需要提供多个高质量的人工参考译文。如果只有一个参考译文，可能会因为译文的多样性而导致 BLEU 分数偏低；
分数差异难以解释：两个 BLEU 分数之间的较大差异可能并不意味着翻译质量有显著差异，而较小差异也可能不完全反映人类感知的质量；
无法处理“幻觉”或不一致：BLEU 无法识别机器译文是否包含参考译文中没有的信息（幻觉），或者是否与原文不一致；
不适用于所有生成任务：尽管在翻译领域流行，BLEU 不适用于那些需要高创造性或多样性输出的任务。

在实际应用中，通常会将 BLEU 分数与其他评估指标（ROUGE、METEOR、BERTScore等）以及人工评估结合起来，以获得更全面和准确的机器翻译质量评估。

28、Perplexity 是什么? 它如何用于评估 LLMs?

困惑度（Perplexity, PPL） 是衡量 LMs 好坏的一个重要指标，尤其在预训练和 LMs 本身的评估中非常常用。PPL 衡量的是一个 LMs 预测样本序列的不确定性或困惑程度。

从数学上讲，PPL 是交叉熵的指数。给定一个测试语料库，一个 LMs 对这个语料库的 PPL 定义为：

其中，是 LM 在给定前个词的情况下预测第个词的概率。

数值越低越好：PPL 越低，说明 LM 对测试语料的预测能力越强，模型对语言模式的学习越好；
相当于每个词的平均分支因子：可以将其理解为模型在每个决策点上平均有多少个“等可能”的下一个词的选择。如果困惑度是 100，意味着模型在预测下一个词时，平均有 100 个同样可能的选择。PPL 越低，模型在每个点上的不确定性越小。

PPL 主要用于评估 LLMs 的以下几个方面：

语言建模能力：PPL 是评估 LM 对语言本身建模能力最直接的指标。一个好的 LM 应该能够准确地预测下一个词，从而得到较低的 PPL。在 LLM 的预训练阶段，PPL 是衡量模型学习进度的关键指标；
衡量泛化能力：在一个未见过的测试集上计算 PPL，可以衡量模型对新数据的泛化能力。如果模型在训练集上 PPL 很低，但在测试集上很高，则可能存在过拟合；
模型改进的指标：在开发和迭代 LLM 时，会使用 PPL 来比较不同模型架构、训练方法或超参数调整的效果。PPL 的下降通常意味着模型性能的提升；
作为下游任务的代理指标：如果一个 LLM 在 PPL 上表现出色，它在某些下游任务（如文本生成、摘要）上也可能表现良好。

29、评估 LLMs 的定性方法有哪些?

定性评估方法侧重于人工分析模型输出的质量、适用性和行为，对于量化指标难以捕捉的方面至关重要，常见的定性评估方法有：

人工评审（Human Evaluation）：这是最直接和最权威的定性评估方法

自由形式反馈：评估人员阅读模型的输出，并提供开放式的评论，指出优点、缺点、错误、不连贯之处、偏见或不当内容；
等级评分：评估人员根据预定义的标准（如流畅性、相关性、信息量、连贯性、安全性、真实性等）对模型输出进行评分。通常使用李克特量表（Likert scale）或更细致的分数；
偏好排序：在对比不同模型或不同版本模型时，评估人员被要求对多个模型的输出进行偏好排序；
A/B 测试：将不同模型的输出随机呈现给用户，并收集用户对各自体验的反馈，从而间接评估模型的性能。

错误分析（Error Analysis）：深入检查模型失败的案例，找出其出错的模式和原因

幻觉分析：识别模型生成虚假信息、捏造事实或引用不存在来源的情况；
偏见分析：检查模型输出中是否存在刻板印象、歧视性语言或不公平的表示；
安全性和毒性分析：评估模型是否生成有害、冒犯性、仇恨言论或不当内容；
不连贯性/重复性分析：识别模型生成重复、不连贯或逻辑混乱文本的情况；
事实一致性分析：针对摘要或问答任务，检查模型输出是否与源文本的事实保持一致。

用户研究/可用性测试（User Studies/Usability Testing）：让真实用户与 LLMs 驱动的应用程序进行交互，观察他们的行为、收集他们的反馈，了解模型在实际使用场景中的表现和用户体验;

案例研究（Case Studies）：选择具有代表性或挑战性的特定输入，深入分析模型对这些输入的响应，以揭示模型的优势和劣势;

对抗性测试/越狱（Adversarial Testing/Jailbreaking）：有意设计一些输入（“越狱提示”），试图诱导模型产生有害、不当或违背其设计意图的输出，有助于发现模型的脆弱性和安全漏洞；

可视化分析（Visualization Analysis）：使用工具将模型的注意力机制、内部表示或输出模式可视化，帮助理解模型的工作原理和决策过程，从而发现潜在问题；

定性评估的挑战在于其主观性和耗时性，但它能提供定量指标无法比拟的洞察力，尤其是在评估 LLMs 的创造性、常识推理、道德和社会影响等方面。在实践中，通常会先进行初步的定量评估，然后辅以深入的定性分析来全面理解模型的性能。

30、LLMs 的 Intrinsic Evaluation 与 Extrinsic Evaluation 有何区别?

LLMs 的评估方法通常可以分为内在评估（Intrinsic Evaluation）和外在评估（Extrinsic Evaluation）。这两种方法从不同的角度衡量模型的性能，各有侧重。

Intrinsic Evaluation (内在评估)

内在评估是独立于特定下游任务，直接衡量语言模型自身的语言建模能力或通用语言理解能力的方法。它关注模型对语言本身的理解和生成能力，通常通过一些通用指标来衡量。

特点：

任务无关性：评估与模型的最终应用场景（下游任务）无关。
通常基于统计或概率：许多内在评估指标是基于模型对文本序列的概率分配或统计特性来计算的。
计算效率高：相对于外在评估，内在评估通常更容易自动化，计算成本较低。
提供基础性能洞察：能够快速判断模型在语言建模基础任务上的表现。

常见方法/指标：

困惑度 (Perplexity)：衡量模型对测试语料的预测不确定性。
GLUE/SuperGLUE 基准测试：包含一系列通用的自然语言理解任务（如情感分析、文本蕴含、问答等），用于评估模型在多种基础理解任务上的表现。
零样本 (Zero-shot) 或少样本 (Few-shot) 学习能力评估：衡量模型在没有或只有少量训练示例的情况下，完成新任务的能力。
模型内部一致性/连贯性：虽然有点定性，但也可以通过分析模型对特定指令的响应一致性来衡量。

Extrinsic Evaluation (外在评估)

外在评估是将语言模型作为某个大型系统的一部分，通过衡量整个系统在特定实际应用任务上的性能来评估语言模型。它关注模型在实际应用场景中的实用性和效果。

特点：

任务相关性：评估与模型的具体应用场景（下游任务）紧密相关。
通常涉及端到端系统：模型被集成到真实的应用流程中，其性能由整个系统的最终输出决定。
通常更耗时耗力：需要构建完整的应用系统，进行用户测试或在真实环境中部署，成本较高。
直接反映实际价值：能够直接衡量模型在实际问题解决中的有效性。

常见方法/指标：

机器翻译（Machine Translation）：使用 BLEU, ROUGE, METEOR, BERTScore 等指标评估翻译质量。
问答系统（Question Answering）：使用 EM (Exact Match), F1-score 等评估回答的准确性。
文本摘要（Text Summarization）：使用 ROUGE 等指标评估摘要的质量。
对话系统（Dialogue Systems）：评估对话的流畅性、连贯性、相关性、信息量以及用户满意度（通常通过人工评估）。
情感分析（Sentiment Analysis）：使用准确率、精确率、召回率、F1-分数等评估分类性能。
人工评估（Human Evaluation）：在许多外在评估场景中，人工评估是必不可少的，尤其对于创造性或主观性较强的任务。

主要区别

在实际应用中，通常会结合内在评估和外在评估来全面评估 LLMs。内在评估提供快速反馈和基础能力验证，外在评估则确认模型在真实世界中的实用价值

。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述