实现mini智能助理—模型训练

最新推荐文章于 2025-10-27 10:01:46 发布

原创

最新推荐文章于 2025-10-27 10:01:46 发布 · 6.4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #AIGC #自然语言处理 #chatgpt

本文介绍了大模型的训练流程，包括预训练、模型微调、上游任务学习和对齐学习四个阶段，并探讨了Fine-tune和PromptLearning等技术。此外，文章提到了DeltaLearn的概念，以及在实践中如何使用Chatglm模型进行微调。最后预告了下一篇文章将讨论RLHF（ReinforcementLearningwithHumanFeedback）。

背景

距离上篇打带你实现自己迷你chatgpt文章，到现在已经过去快两个月。自制mini chatgpt文章一直没有更新，原因有二：1.一直在找合适体量表现不错模型 2.公司内部太卷了，没太多时间好好梳理文章。这篇文章会给大家介绍一些大模型训练的概念，然后会给大家介绍pretrain model在自己数据集合上的微调学习。

大家一直在讲大模型，但是感觉大家也只是在讲大模型。到现在似乎还没看到一篇文章介绍大模型的整个工艺流程是如何的，1.需要经历哪几个步骤 2.有哪些手段学习知识 3.如何做特定域知识增强 4.如何去让机器更懂人（适应不同人表达方式，精准给出他们想要答案；其实就是增强智能体的模糊适应性）。

这篇文章会尝试去回答上面几个问题，当然一些技术细节和技术流程没法完全覆盖到。原因有二：1.不同情况解决方案不同，只能讲个大方向 2.公司也不允许我把所有细节公布，毕竟这个关系钱财之事。

大模型训练流程

1.pretain model：这个阶段大部分情况是设计成无监督或者弱监督学习，让模型成为博览群书有知识的通才

2.模型微调：这部分主要对pretrain model做少量标签或者知识补充，让通才把自己的知识结构做梳理成为体系

3.上游任务学习：这部分任务训练模型专业技能，让模型在有通识时也有更强工作力，同时也会重塑通识体系

4.对齐学习：渊博且有能力，但是还得让它更懂人话，更容易和他沟通，所以需要做alignment，这部分现在主流是RLHF

上面的几个过程并非只做一轮，经常是需要做很多轮的迭代才可能让模型有较好表现。上面的流程分工在开始的几轮是顺序进行，有相对明显的界限。但是越到后面的迭代边界越模糊，往往是同时几种方法一起上。所以大家知道有这些流程和手段就好，不需要去纠结他们清晰边界。

大模型训练手段

finetune

Fine-tune的核心思想是利用在大型数据集（例如ImageNet、COCO等）上训练好的预训练模型，然后使用较小数据集（小于参数数量）对其进行微调[3]。这样做的优势在于，相对于从头开始训练模型，Fine-tune可以省去大量的计算资源和时间成本，提高了计算效率，甚至可以提高准确率[1][2]。

finetune是指在预训练模型的基础上，针对特定任务进行微调，以提高模型的性能。Fine-tune的具体方法有多种，但一般而言，可以通过调整模型的层数、调整学习率、调整批量大小等方式进行微调[2]。

Finetune的优势在于不用完全重新训练模型，从而提高效率，因为一般新训练模型准确率都会从很低的值开始慢慢上升，但是finetune能够让我们在比较少的迭代次数之后得到一个比较好的效果。

虽然Fine-tune有很多优势，但也存在一些不足之处。例如，Fine-tune需要大量的数据集才能提高模型的性能，这可能会导致一些任务难以实现。此外，Fine-tune的性能很大程度上依赖于预训练模型的质量和适用性，如果预训练模型和微调数据集之间存在差异，则Fine-tune可能无法提高模型性能[1]。

未来，Fine-tune技术将继续得到广泛的应用。一方面，随着深度学习模型的不断发展和改进，预训练模型的质量和适用性将会不断提高，从而更加适用于Fine-tune技术。另一方面，Fine-tune技术也将有助于解决一些实际应用中的难题，例如小数据集、数据集标注困难等问题[1][