360-LLaMA-Factory 使用教程

360-LLaMA-Factory 使用教程

360-LLaMA-Factory adds Sequence Parallelism into LLaMA-Factory 360-LLaMA-Factory 项目地址: https://gitcode.com/gh_mirrors/36/360-LLaMA-Factory

1. 项目介绍

360-LLaMA-Factory 是基于 LLaMA-Factory 的开源项目,它引入了序列并行性(Sequence Parallelism,简称 SP)技术。这种技术能够有效提升大型语言模型训练的性能,尤其是在处理长序列时。项目在保留 LLaMA-Factory 原有功能的基础上,通过最小的代码改动实现了序列并行性,具有高度的模块化,并经过了正确性验证。

2. 项目快速启动

在开始之前,请确保您的环境中已安装 Python 3.11。

新建 Python 环境

conda create -n 360-llama-factory python=3.11 -y

激活环境:

conda activate 360-llama-factory

克隆代码库

git clone https://github.com/Qihoo360/360-LLaMA-Factory.git
cd 360-LLaMA-Factory

安装依赖

pip install -e ".[torch,metrics,deepspeed]"

配置文件

在配置文件中设置 sequence_parallel_sizecutoff_len

sequence_parallel_size: 4
cutoff_len: 128000

或者,在命令行中设置这些参数:

deepspeed --hostfile=8nodes.host src/train.py \
--sequence_parallel_size 4 \
--cutoff_len 128000 \
...

运行训练

使用 DeepSpeed 启动训练:

deepspeed --hostfile=8nodes.host src/train.py

3. 应用案例和最佳实践

以下是使用 360-LLaMA-Factory 的一些应用案例和最佳实践:

  • 序列并行性训练:通过设置 sequence_parallel_size 参数,可以在多个 GPU 上并行处理同一序列的数据,从而提高训练效率。
  • 参数配置:合理设置 cutoff_len 参数以确保数据能够被正确填充和处理。
  • 性能优化:可以通过一些自定义的优化技巧(如注释 logtis = logits.float(),使用 liger kernel,DPO 预计算等)来进一步提升训练性能。

4. 典型生态项目

360-LLaMA-Factory 作为 LLaMA-Factory 的扩展,能够与其他相关项目配合使用,以下是一些典型的生态项目:

  • ring-flash-attn:为序列并行性提供支持的关键依赖库。
  • trl:Transformers 的扩展库,提供额外的训练和优化功能。
  • deepspeed:用于加速模型训练的深度学习优化库。

通过上述介绍和教程,您可以开始使用 360-LLaMA-Factory 来提升您的语言模型训练效率。

360-LLaMA-Factory adds Sequence Parallelism into LLaMA-Factory 360-LLaMA-Factory 项目地址: https://gitcode.com/gh_mirrors/36/360-LLaMA-Factory

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

### LLaMA-Factory 使用教程及文档 LLaMA-Factory 是一个用于微调和部署大语言模型(LLM)的开源工具包。它支持多种模型格式,并提供了丰富的功能来简化模型训练、推理和服务化的过程。以下是关于 LLaMA-Factory使用教程及相关内容。 #### 1. 安装 LLaMA-Factory 首先,需要克隆 LLaMA-Factory 的仓库并安装依赖项: ```bash git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip install -e .[metrics] ``` 上述命令会将 LLaMA-Factory 克隆到本地,并安装必要的依赖项[^1]。 #### 2. 创建 Conda 环境 为了确保兼容性,建议创建一个新的 Conda 环境: ```bash conda create -n llama_factory python=3.10 conda activate llama_factory ``` 这一步确保了 Python 版本与 LLaMA-Factory 的要求一致[^1]。 #### 3. 启动 WebUI LLaMA-Factory 提供了一个基于 Web 的用户界面,可以方便地进行模型微调和测试。启动 WebUI 的命令如下: ```bash #!/bin/bash eval "$(/root/miniconda3/bin/conda shell.bash hook)" conda activate llama_factory DISABLE_VERSION_CHECK=1 \ PYTORCH_NVML_BASED_CUDA_CHECK=1 \ CUDA_VISIBLE_DEVICES=3,1,0,2 \ llamafactory-cli webui ``` 此脚本会激活 Conda 环境并设置必要的环境变量以启动 WebUI[^2]。 #### 4. 部署模型为 OpenAI 兼容 API 通过 `vllm` 工具,可以将微调后的模型作为 OpenAI 兼容的 API 对外提供服务。以下是一个示例命令: ```bash VLLM_WORKER_MULTIPROC_METHOD=spawn vllm serve /root/HuggingFaceCache/models--Qwen--Qwen2.5-7B-SFT-Instruct --trust-remote-code --served-model-name gpt-4 --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000 --api-key sk-123456 --max-model-len 32768 ``` 该命令指定了模型路径、GPU 资源分配以及 API 服务端口等参数[^2]。 #### 5. 官方文档与教程 除了上述内容,用户还可以参考以下资源进一步了解 LLaMA-Factory 的功能: - **GitHub 仓库**: [https://github.com/hiyouga/LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory) 提供了详细的 README 文件和示例代码。 - **官方文档**: 如果存在单独的文档页面,请查阅其提供的教程和 API 参考。 #### 注意事项 在使用 LLaMA-Factory 时,请确保 GPU 驱动和 CUDA 工具链版本符合要求。此外,根据模型大小调整 `gpu-memory-utilization` 和 `tensor-parallel-size` 参数以优化性能[^2]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苏钥凤Magdalene

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值