使用 Unsloth 高效微调 Llama 3.1

最新发布的 Llama 3.1 系列模型展现出惊人性能表现,显著缩小了闭源模型与开源权重模型之间的差距。相比直接使用 GPT-4o 和 Claude 3.5 这类固定参数的通用 LLMs,针对具体应用场景微调 Llama 3.1 能以更低成本实现更优性能与定制化效果。

 

 本文将全面概述监督式微调技术。我们将通过对比提示工程来阐明其适用场景,详细分析主流技术方案的优缺点,并介绍 LoRA 超参数、存储格式和对话模板等核心概念。

🔧 Supervised Fine-Tuning

监督式微调(SFT)是改进和定制预训练 LLM 的核心方法。该方法通过在指令-答案组成的小规模数据集上重新训练基础模型,将原始文本预测模型转化为能遵循指令、解答问题的智能助手。SFT 不仅能提升模型整体表现,还可注入新知识或适配特定任务领域。经过微调的模型可进一步选择性地进行偏好对齐(

### 使用 LLaMA-Factory 对 LLaMA3.1 模型进行微调 为了使用 LLaMA-Factory 对 LLaMA3.1 进行微调,需遵循一系列配置和命令来设置环境并启动训练过程。 #### 设置 GPU 环境 确保已安装适合的 CUDA 版本以及 PyTorch 的 GPU 支持版本。这可以通过访问 PyTorch 官网获取相应指令完成安装[^3]: ```bash conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia ``` #### 验证安装 在确认所有依赖项正确无误之后,在 LLaMA-Factory 路径下调用以下命令以检验安装情况: ```bash llamafactory-cli version llamafactory-cli train -h ``` #### 准备数据集与模板文件 对于特定应用领域或任务的数据准备至关重要。假设已经准备好用于微调的数据集,并将其放置于 `data` 文件夹内。另外,还需编辑身份信息以便更好地适配自定义需求[^5]: ```python import json %cd /content/LLaMA-Factory/ NAME = "Gavin大咖打造的Llama3人工智能助手" AUTHOR = "LLaMA Factory" with open("data/identity.json", "r", encoding="utf-8") as f: dataset = json.load(f) for sample in dataset: sample["output"] = sample["output"].replace("NAME", NAME).replace("AUTHOR", AUTHOR) with open("data/identity.json", "w", encoding="utf-8") as f: json.dump(dataset, f, indent=2, ensure_ascii=False) ``` #### 启动 Web UI 或者直接运行微调脚本 有两种方式来进行实际的微调操作:通过图形界面 (WebUI) 或者命令行工具执行。这里提供两种方法的选择依据个人偏好而定。 ##### 方法一:利用 WebUI 方便调试 开启 WebUI 前先设定好使用的模型仓库为 ModelScope[^2]: ```bash export USE_MODELSCOPE_HUB=1 && llamafactory-cli webui ``` ##### 方法二:直接调用 CLI 工具快速上手 此法适用于熟悉命令行操作的用户群体,只需指定必要的参数即可开始训练进程[^1]: ```bash CUDA_VISIBLE_DEVICES=1 \ llamafactory-cli webchat \ --model_name_or_path [your path]/llm/Meta-Llama-3.1-8B-Instruct/ \ --adapter_name_or_path [your path]/llm/LLaMA-Factory/saves/Llama-3.1-8B/lora/sft-3/ \ --template llama3 \ --finetuning_type lora ``` 请注意替换 `[your path]` 为具体的本地存储位置。 #### 参数调整建议 由于不同应用场景下的最优超参可能有所差异,因此推荐根据具体情况进行适当调节。虽然不存在绝对标准的最佳实践指南,但可以根据以往经验总结出一些较为合理的区间范围作为参考起点[^4]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

runner000001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值