文章目录 系列 LLaMA-Factory简介推荐硬件要求环境搭建数据准备 指令微调数据集 偏好数据集自定义数据集 指令监督微调合并 LoRA 权重并导出模型其他(训练全流程) 预训练 奖励模型训练PPO 强化学习训练DPO 强化学习训练 通过一站式网页界面快速上手