吴恩达《微调大型语言模型》笔记_微调大模型吴恩达笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/Ajdidfj/article/details/133681655

本文介绍了微调通用模型如GPT-3到特定任务的技术，强调了数据质量和多样性的关键，提供了L4数据准备步骤，以及评估模型的多种方法，如ELO对比和LLM基准测试。同时提到了参数高效微调方法LoRA，旨在优化训练效率和资源利用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

微调（fine-tuning）就是利用特有数据和技巧将通用模型转换为能执行具体任务的一种方式。例如，将 GPT-3 这种通用模型转换为诸如 ChatGPT 这样的专门用于聊天的模型。或者将 GPT-4 转换为诸如 GitHub Coplot 这样的专门用于写代码的模型。

这里的微调特指生成式任务上的微调。在这种方式中，

需要更新整个模型的权重，而不是像其他模型一样只更新部分权重
微调的训练目标与预训练时的目标相同，目的是让模型的输出更加一致
有许多先进的方法可以减少对模型的更新

L4 如何为训练准备数据

1.高质量

2.多样性

3.真实的数据（因为生成的数据具有某种模式）

4.更多的数据

收集数据的步骤：

1）连接这些对或添加提示模板

2）对数据进行标记，添加填充或截断数据，使得数据适合偶像。

对数据进行标记是将文本数据转化为表示每个文本片段的数字。实际上，不一定是按单词来分的。是基于常见字符出现的频率。之后，当您使用相同的标记器进行解码时，它会转换为相同的文本。

现在有很多不同的标记器，每个模型都与特定的标记器相关联，因为它是根据它进行训练的。

L6评估生成模型

目前流行的一种方法是Eleuther AI开发的ELO对比，类似于多模型间的AB test。普遍采用的一个开放LLM基准测试利用了多种评估方法。它集合了各种评估方法并取平均值以此来排序模型。包括：

ARC：主要是小学问题

（ARC包含7787个来自不同科学领域的考试问题，根据难易程度，可以划分为2590个问题组成的ARC-Challenge和5197个问题的ARCEasy。这些问题用以评估LLM在多步推理、语言匹配等多方面的高级能力。在这两个评测基准中，GPT-4取得了最好的成绩，明显超过其他LLM。）
HellaSwag：常识
MMLU：多个小学学科
TruthfulQA：评估模型在复制常见的在线错误信息上的表现
FreeWilly模型是在 Llama-2 模型基础上进行微调得到的，使用的是 ORCA 方法。
另一个分析和评估模型的框架是错误分析：

第一种：拼写错误。

第二种：长度过长。简洁的数据集可以帮助模型更准确地回答问题。

第三种：生成重复。解决方法是更明确地使用停止标记或者提示词模板。确保数据既有多样性又不过于重复。

注意，不需要过度关注模型在这些基准测试上的表现，因为他们可能与业务场景无关。因此，真正要关心的是在真实业务场景上的表现。上述基准测试只有在你研究的是通用模型时才更具有参考价值。也就是说，这个基准测试对于你找基础的模型有参考价值，对于具体地微调任务上意义不大。