lora微调训练

雷湘剑

于 2025-02-26 20:50:18 发布

阅读量166

点赞数 6

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dreambeibei/article/details/145877655

版权

llama factory作为高效、易用的微调工具，提供了极大的便利性，带有可视化的微调工具。

做微调其实有很多中方式，一种是可以通过命令行去做任务，还有一种是通过可视化页面配置参数的方式进行微调。

主流大模型已经是做了预训练的，预训练的基本原则它是有一个数据集，这就导致我们的大模型存在一个问题，它的数据是静止的，最新出的一个大模型它的数据集会有一个截止时间。比如：那天发布的，以这个时间为截止，数据就止步到这个时间。如果你想让它学习到新的知识，比如新闻、热点事件，还有公司的一些业务文档的一些行业知识等，那这个模型就办不到了。所以我们需要对一些大模型做一些知识的喂投，让它去理解我们特定领域知识的一些特性，说白了就是我们要训练出来一个比较匹配我们业务的大模型，就是做行业领域这块的。

RAG其实也是一种方式，RAG有个问题就是数据量有一定限制的，不能无限制的去喂投。RAG每次都需要去建一些知识库，其实有些行业知识，我们都是沉淀下来的一些固定的东西，这些东西我们可以通过微调训练，把它给训练进去。

微调过程主要包括以下步骤：

1、数据准备：收集和准备特定任务的数据集

可以到llamaFactory官方网站上看一下对于数据集的一些要求。一般是一些对话的格式，比如一个数据集的格式：

[{

"instruction":"识别......",(提问)

"input":"",（输入）

"output":""（输出）

}]

这里是简单的问答，还有一种方式是多人对话，比如说要做医疗行业的大模型，针对一些心理问诊，那有多人对话，比如说：因为问诊是循序渐进，所有它是由多人会话的。

2、模型选择：选择一个预训练模型作为基础模型

可以选择DeepSeek-R1-Distill-Qwen-1.5B，可以通过huggingFace网站上下载这个模型

3、迁移学习：在新的数据集上继续训练模型，同时保留预训练模型的知识

训练完后会得到一个叫lora模型，最终需要将lora模型和预训练模型进行合并。合并完之后就会得到一个微调的模型。这个模型其实跟原有的模型格式是一样的。

4、参数调整：根据需要调整模型的参数，例如：学习率（速度）、批大小等。

llamafactory页面上会提供一下参数：量化等级、量化方法等，参数很多，但是主要的参数：比如学习率、批大小等。

5、模型评估：在验证数据集上评估模型的性能，并根据反馈进行调整。

模型评估主要是验证训练后的模型的效果，可以通过验证集进行评估。

相比从头开始训练模型，微调可以显著减少所需的数据量和计算资源。一般具有很多显卡资源的大公司，他们有条件去做基座模型研发，有条件去做预训练。

llama factory：这个工具可以到github上去了解。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

雷湘剑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。