文章目录
Tips: 1. 正如之前文章里所说的,windows无法直接运行trl。2. 无法连接huggingface的话,可以通过设置镜像来解决。
一、TRL SFT核心功能与基础配置
TRL(Transformer Reinforcement Learning)是Hugging Face开发的全栈式语言模型微调框架,支持监督微调(SFT)、直接偏好优化(DPO)等任务。其命令行工具(CLI)允许用户无需编写代码即可完成模型训练,适用于大规模模型(如Llama 3)的量化微调。
基础命令示例:
trl sft --model_name_or_path meta-llama/Meta-Llama-3-8B \
--dataset_name HuggingFaceH4/no_robots \
--learning_rate 0.0001