使用LLaMA Factory踩坑记录

前置条件电脑显卡RTX 4080

问题:LLaMA-Factory在运行的时候,弹出未检测到CUDA的报错信息

结论:出现了以上的报错,主要可以归结于以下两个方面

1、没有安装GPU版本的pytorch,下载的是CPU版本的pytorch;

2、安装的CUDA和安装的pytorch的版本不相互对应。

这里要注意,python的版本对应者pytorch的版本,pytorch的版本又对应着CUDA的版本。

可以参考这个博文:Torch not compiled with CUDA enabled问题解决过程记录-优快云博客

问题解决过程:

我本机出现这个报错时的CUDA环境是这样的:

最高支持12.6,我装了12.2版本的cuda。python版本为3.11。

### 一、Llama Factory 简介 Llama Factory 是一个开源工具包,用于简化大语言模型(LLMs)的训练和微调过程。它提供了从数据预处理到模型部署的一整套解决方案,尤其适合希望快速上手并调整 LLMs 的研究人员和技术人员[^1]。 ### 二、下载与安装 Llama Factory 要开始使用 Llama Factory,首先需要将其克隆至本地环境。以下是具体的步骤: #### 克隆仓库 打开命令行或终端,运行以下命令以克隆 Llama Factory 的 GitHub 仓库: ```bash git clone https://github.com/hiyouga/LLaMA-Factory.git ``` 完成之后进入目录: ```bash cd LLaMA-Factory ``` #### 安装依赖项 确保已安装 Python 和 pip 工具链,并执行如下操作来设置虚拟环境及安装必要的依赖项: ```bash pip install -r requirements.txt ``` 如果遇到任何问题,请参考官方文档或者社区讨论区解决常见错误[^2]。 ### 三、配置环境变量 为了使程序能够正常访问 GPU 加速功能,在启动脚本之前确认 PyTorch 是否被正确初始化为 CUDA 版本。可以通过下面这段代码验证当前设备状态: ```python import torch print(torch.cuda.is_available()) ``` 当返回 `True` 表明系统已经准备好利用 NVIDIA 显卡加速计算任务了[^2]。 ### 四、训练流程概览 一旦准备工作就绪,就可以着手准备自己的专有语料库来进行自定义化训练啦! #### 准备数据集 按照项目说明文档指引格式化输入文本文件集合,一般推荐采用 JSON Lines (.jsonl) 文件作为存储介质之一[^3]。 #### 修改参数设定 编辑默认超参配置文件 (config.yaml),指定目标架构名称(如 chatglm3-6b )以及其他选项比如学习率(batch size etc.) 来适配具体需求场景下的表现优化[^1]. #### 启动训练作业 最后提交分布式或多节点联合运算请求即可触发完整的端到端迭代周期直至收敛达标为止[^3]: ```bash sh run_train.sh ``` 以上便是关于如何运用 Llama Factory 实现高效便捷的大规模自然语言理解能力提升路径介绍的一部分内容摘要总结^. --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值