最近开始研究关于模型训练的事情,比如这一次的模型微调
首先什么是模型微调呢,简单来说就是:我现在已经有了一个模型,但是这个模型并不能满足我特定的场景和需求,对于一些比较专业的行业,模型自己的知识库是不够的,但是重新开始训练一个模型的时间和成本又会很大,所以在现有模型的基础上,再喂给模型一些数据进行反向训练,这种操作就是模型微调(我自己理解的是这样)
预训练模型:提前准备好的一个模型。这个可以在魔塔社区或者huggingface上进行下载,一会儿我会演示
数据集:需要给模型的一些行业的数据
流程:下载一个预训练模型,放入数据集,选择一个反向传播算法,控制学习率和优化器,来实现模型微调
接下来是操作步骤:
1、预训练模型下载
进入魔塔社区https://www.modelscope.cn/my/overview


基本上就可以下载好一个模型了,内部是这样的

因为我的电脑是mac,所以就先下载了一个3b的模型,如果显卡比较好的,可以下载7b的模型
2、安装llama-factory
我需要有一个模型微调的工具,恰好llama-factory是开源的免费的,还能本地部署,还简单,最适合我这种新手小白了,所以就用它了
github地址:https://github.com/hiyouga/LLaMA-Factory?tab=readme-ov-file
安装起来也很容易
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]" --no-build-isolation

也是可以通过docker安装的,可以在github的文档中查看
3、运行llama-factory
llamafactory-cli webui
界面是这样的

4、使用

其他的一些参数我还没研究明白,但是已经可以微调了

然后就可以等待了,显示训练完毕就说明微调成功了
5、导出微调后模型到本地

这样就能看到指定位置有一个模型了
6、验证一下是否微调成功
我不知道为什么使用它的chat去测试一直不成功,所以使用了ollama去运行微调前和微调后的模型,直接上截图吧
这是数据中一个


是不是效果还是很明显的
嘎嘎棒🎉🎉🎉
1万+

被折叠的 条评论
为什么被折叠?



