使用 LLaMA-Factory 微调大模型

最新推荐文章于 2025-03-05 13:44:30 发布

TFATS

最新推荐文章于 2025-03-05 13:44:30 发布

阅读量1.1k

点赞数 16

分类专栏： LLM 大模型算法文章标签： AIGC 大模型自然语言处理深度学习人工智能

本文链接：https://blog.youkuaiyun.com/TFATS/article/details/145127337

版权

本文将介绍如下内容：

一、搭建 Docker Container 环境
二、配置大模型训练环境
三、构建、配置数据集
四、训练大模型

一、搭建 Docker Container 环境

笔者此前多篇文章说明，此处不再赘述，可参考：NGC容器中快速搭建Jupyter环境
Eg： NGC 版本为 24.09

二、配置大模型训练环境

1、下载代码

git clone https://github.com/hiyouga/LLaMA-Factory.git

# 切换到此次案例的版本
git checkout c3fda5046d835ba4542d525b8d89cd12838e9f4c

2、配置训练环境

cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install deepspeed==0.15.4

三、构建、配置数据集

1、构建数据集

将数据构造为如下格式的json文件：

[
  {
   
    "instruction": "识别并解释给定列表中的两个科学理论：细胞理论和日心说。",
    "input": "",
    "output": "细胞理论是生物科学的一个理论，它认为所有生命体都是由微小的基本单元——细胞所构成。"
  },
  [
  {
   
    "instruction": "识别并解释给定列表中的两个科学理论：细胞理论和日心说。",
    "input": "",
    "output": "细胞理论是生物科学的一个理论，它认为所有生命体都是由微小的基本单元——细胞所构成。这是生物学的一个基础理论，认为细胞是所有生物的基本结构和功能单位，所有的生物都是由一个或>多个细胞组成，细胞只能通过细胞分裂产生新的细胞。这一理论由薛定谔、施瓦内和雪莱于1839年首次提出。\n\n日心说是指太阳是太阳系的中心，也就是说，行星围绕太阳旋转的理论。这个理论打破了传统的
地心说观点，认为地球并不是宇宙的中心。日心说的提出者是尼古拉·哥白尼，他在16世纪初发表了他的著作《天体运行论》，阐述了太阳系行星围绕太阳运行的模型，为天文学的发展做出了巨大贡献。"
  },
]