Mozi: 科学领域大规模语言模型使用教程
1. 项目目录结构及介绍
gmftbyGMFTBY/science-llm/
├── SciDPR/
│ ├── asset/
│ └── data/
├── scillm/
│ ├── gitignore
│ ├── LICENSE
│ ├── README.md
│ ├── requirements.txt
│ └── scripts/
│ ├── deploy.sh
│ ├── train_pretrain.sh
│ └── train_sft.sh
└── config/
├── base.json
└── base.yaml
目录结构介绍
-
SciDPR/: 包含SciDPR模型的相关资源和数据。
- asset/: 存放SciDPR模型的静态资源。
- data/: 存放SciDPR模型的训练和测试数据。
-
scillm/: 包含Mozi模型的核心代码和配置文件。
- gitignore: Git忽略文件。
- LICENSE: 项目许可证。
- README.md: 项目介绍和使用说明。
- requirements.txt: 项目依赖库列表。
- scripts/: 包含项目的启动和训练脚本。
- deploy.sh: 部署Mozi模型的脚本。
- train_pretrain.sh: 预训练Mozi模型的脚本。
- train_sft.sh: 微调Mozi模型的脚本。
-
config/: 包含项目的配置文件。
- base.json: 基础配置文件。
- base.yaml: 基础配置文件。
2. 项目启动文件介绍
2.1 环境安装
在启动项目之前,首先需要安装项目所需的环境。可以通过以下命令安装依赖库:
pip install -r requirements.txt
然后安装PyTorch包,确保使用正确的CUDA版本:
pip install torch==1.13.1+cu117 -f https://download.pytorch.org/whl/torch/
2.2 准备Mozi模型检查点
Mozi模型的权重包括预训练的大型语言模型和LoRA权重。首先,下载LLaMA-7B和Baichuan-7B的检查点,然后从以下地址下载LoRA权重:
- Baichuan-7B delta weight:
mozi_baichuan_7b
- LLaMA-7B delta weight:
mozi_llama_7b
2.3 部署Demo
完成上述步骤后,可以通过以下命令在本地运行Demo:
./scripts/deploy.sh
该脚本将在23333端口运行Mozi模型,输入POST请求的格式如下:
{
"decoding_method": "greedy",
"top_p": 0.7,
"top_k": 10,
"penalty_alpha": 0.5,
"max_new_tokens": 128,
"history": [
"Human: 最近科研压力真的好大啊"
]
}
3. 项目配置文件介绍
3.1 config/base.json
该文件包含项目的基础配置,如模型名称、训练数据路径、日志路径等。以下是配置文件的部分内容示例:
{
"model": "scillm",
"model_path": "baichuan-inc/baichuan-7B",
"train_data_path": "/data/pretrain",
"log_path": "/logs",
"save_path": "/ckpt"
}
3.2 config/base.yaml
该文件包含项目的训练配置,如训练步数、批量大小等。以下是配置文件的部分内容示例:
total_steps: 2000
batch_size: 8
learning_rate: 0.0001
通过以上配置文件,可以灵活调整项目的训练和运行参数。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考