LLaMA-Factory环境安装-重点总结

原创

已于 2024-06-17 14:23:27 修改 · 3.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#llama #人工智能 #深度学习

于 2024-05-14 18:45:01 首次发布

问题：在使用官网介绍的博客，进行安装，比较顺利。只不过，在需要推理加速时，UI界面上，给出的选项所支持的FlashAttention-2和Unsloth，不好实现。在进行一系列的调整，总结如下：

想要同时实现FlashAttention-2和Unsloth推理加速的环境安装方式：

以Ubuntu22.04 RTX4090 24GB为例：

1. 系统配置：CUDA版本选择12.2.x，因为高版本的flash-attn库不提供12.1版本的安装包：

## cuda 
export PATH=/usr/local/cuda-12.2/bin:$PATH
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.2/lib64

2. 虚拟环境创建：python版本选择3.10.x，使用官方推荐的安装方式：

conda create -n llama_factory python=3.10 -y

3. 首先安装LLaMA-Factory官方提供的环境安装内容：

pip install -e .[torch,metrics,bitsandbytes]

备注：torch版本为2.3.x，后续根据变化调整为对应版本

4. 然后安装flash-attn库，版本号含有cu122torch2.3cxx11abiFALSE：

pip install flash_attn-2.5.8+cu122torch2.3cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

备注：安装版本号含TRUE会报错。

5. 最后安装unsloth库，根据官方的安装内容，仅选取部分即可：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

丁兆海1991

关注关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【实战】LLaMA-Factory 如何做 LLM 的多轮对话微调

kakaZhui的博客

04-01

1125

LLaMA-Factory 作为一个广受欢迎、易于使用的 LLM 微调框架，为开发者提供了便捷的途径来针对特定任务（包括多轮对话）优化模型。本文将深入探讨 LLaMA-Factory 如何支持多轮对话微调，涵盖其基本概念、数据准备、核心机制、评估方法等。简单来说，多轮对话是指包含两个或更多轮次（Turn）的交互过程，其中每一轮通常包含用户的一个输入和模型的一个输出。后续轮次的回应通常依赖于前面轮次的对话内容。模型需要理解并记忆对话历史。

LLM 推理并发不够怎么解？基于 LLaMA-Factory 的模型量化实战指南

kakaZhui的博客

05-07

447

想象一下，你部署的 LLM 应用在高峰期响应缓慢、用户请求大量排队甚至超时失败——这不仅严重影响用户体验，更可能直接导致业务损失。造成并发瓶颈的核心原因之一，就是 LLM 推理本身对计算资源（尤其是 GPU 显存和计算单元）的巨大消耗。那么，当我们的 LLM 推理服务并发告急时，该如何应对？除了增加硬件投入（这往往成本高昂），模型量化 (Model Quantization)是一种在不显著牺牲（有时甚至能略微提升）性能的前提下，有效降低模型显存占用、提升推理速度，从而间接提高并发处理能力的关键技术。

参与评论您还未登录，请先登录后发表或查看评论

大模型开发和微调工具Llama-Factory--＞安装

weixin_46034279的博客

12-01

836

【代码】大模型开发和微调工具Llama-Factory--＞安装。

Llama-factory详细基础使用说明

dtl6540158的博客

10-08

1万+

对于初入算法的童鞋来说，有的可能还不知道llama-factory是什么，只知道大模型用到了这个框架，这是不行的。LLaMA-Factory 是一个低代码的大规模语言模型（LLM）训练框架，它主要面向研究人员和开发者，旨在简化大型语言模型的微调、评估和部署过程。白话说就是集合了当下LLM领域各种好用的开源或者自研的框架以及工具，进行封装以及优化，简化使用方法，方便大家对大模型进行微调和评估部署等工作，降低了使用难度。包括推理框架vllm等（具体可以看官网哈，下面有地址）易用性 vs. 性能。

LLaMA Factory 安装与配置指南：在 Ubuntu 上快速搭建大模型微调平台

ssliq的博客

11-02

1090

LLaMA Factory

【AI时代】可视化训练模型工具LLaMA-Factory安装与使用

浩瀚宇宙的一粒尘埃

02-21

2146

一款进行模型可视化训练、推理的神器。

llama-factory简介

春和景明

04-02

5277

LLaMA-Factory 是一个易于使用的大规模语言模型（Large Language Model, LLM）微调框架，它支持多种模型，包括 LLaMA、BLOOM、Mistral、Baichuan、Qwen 和 ChatGLM 等。多种模型：LLaMA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。集成方法：（增量）预训练、指令监督微调、奖励模型训练、PPO 训练、DPO 训练和 ORPO 训练。没有记录，都是调用的命令行。

LLaMa Factory 安装

weixin_63373973的博客

02-15

1240

【代码】LLaMa Factory 安装。

LLamaFactory安装(五步搞定)

Ven%的博客

12-04

2605

LLamaFactory安装(五步搞定)

【LLaMA-Factory 实战系列】三、命令行篇 - YAML 配置、高效微调与评估 Qwen2.5-VL

weixin_45921929的博客

06-24

1896

告别手动点击，拥抱专业高效！本篇将带您从 WebUI 迈向更强大、可复现的命令行工作流。我们将学习如何使用 .yaml 配置文件精确控制训练、评估与预测的全过程，实现实验的自动化与版本化管理。这是在服务器上进行高效开发、严谨复现研究成果，并迈向专业化模型工程的关键一环。

LLaMA-Factory安装部署-1

qq_15821487的博客

08-22

1311

对齐训练，大模型对齐训练ppo、dpo、kto，到底是什么意思，是什么的缩写，原理是怎么样的？大模型对齐训练中的PPO、DPO、KTO是几种不同的优化算法，它们各自有不同的缩写含义和原理。PPO：即Proximal Policy Optimization（近端策略优化），是一种强化学习算法。PPO通过结合有监督微调（Supervised Fine-Tuning，SFT）和强化学习策略训练阶段，使用显式的逐点奖励函数来训练模型。PPO有助于对齐大型语言模型（LLM）与人类偏好，但也可能导致模型在某些NLP基

LLaMA-Factory安装教程（详细版）

weixin_57293476的博客

05-08

6618

本机显卡双3090使用wsl中ubuntucuda==12.4python==3.12.4（python安装不做赘述，有需要我会另开一篇文章）

LLaMA-Factory安装部署

关注于AI应用开发，探索将传统信息化软件用AI重做一遍

07-11

1428

本节介绍了如何安装llama-factory，机器llama-factory安装的一些高级选项

【环境安装】安装LLaMA-Factory

小博客大智慧

01-17

2910

【机器背景说明】Linux-Centos7；显卡驱动：Driver Version: 460.106.00；【目标环境说明】

llama3 微调教程之 llama factory 的安装部署与模型微调过程，模型量化和gguf转换。

最新发布

gitblog_07033的博客

12-05

2260

### 项目基础介绍 LLaMA-Factory 是一个高效的大型语言模型（LLM）微调平台，旨在通过简单的 WebUI 界面，让用户无需编写代码即可在本地微调上百种预训练模型。该项目支持多种模型和微调方法，包括 LoRA、QLoRA 等，适用于从初学者到高级用户的需求。 ### 主要编程语言 LLaMA-Factory 主要使用 Python 编程语言开发，依赖于 PyTorch 等深度学习框

llama_factory的安装及微调大模型

qishiheyongshi的专栏

09-07

612

在下载的 LLaMA-factory 目录中，data中新增或修改数据集、dataset_info.json中配置数据集。我使用的 vscode 的 Remote - SSH 插件，打开 webui 页面后自动打开页面，在页面进行微调、无需写代码。检验检查点没问题后将原模型和训练的检查点导出成一个新的模型，新的模型就包含了训练的检查点功能。点 chat 进入聊天页面，粘贴一个检查点的绝对路径，然后再下面的聊天窗口中检查训练效果。在chat 中，选择新模型、清空检查点，可以看到模型是微调后的效果。

LLAMA-Factory安装教程（解决报错cannot allocate memory in static TLS block的问题）

qq_36344652的博客

02-06

1510

昇腾环境下安装LLAMA-Factory的教程

LLaMA-Factory微调所输出模型的类型及区别

07-12

<think>嗯，用户想了解LLaMA-Factory微调输出模型的类型及其区别。这个问题很专业，用户可能是AI开发者或研究人员，需要选择适合的模型格式进行部署应用。从引用材料看，LLaMA-Factory支持多种输出格式，但具体区别需要深入分析。用户可能真正关心的是：不同格式在部署时的兼容性、性能差异以及适用场景。参考站内资料，微调后的模型评估和导出是关键环节[^1][^3]。特别注意到引用[3]提到数据集配置会影响微调结果，这可能间接影响输出模型类型的选择。需要系统梳理主要输出格式： 1. PyTorch原生格式（.pth）最灵活但体积大 2. Hugging Face格式便于迁移和再训练 3. GGUF量化格式特别适合边缘部署 4. ONNX格式在工业级推理中有速度优势用户可能还隐含了对比需求：比如在资源受限环境下该选哪种格式？或者需要继续微调时哪种格式最合适？这些都应该在回答中覆盖。最后要提醒模型选择的核心考量因素：硬件环境、部署框架、是否需二次微调等。用户如果后续要导出模型[^1]，这些信息将直接影响决策。</think>LLaMA-Factory 微调后输出的模型类型主要有以下几种，它们在格式、用途和部署方式上存在显著区别： --- ### **1. PyTorch 原生格式 (`*.pth` 或完整目录)** * **特点** - 完整保留模型结构、权重和训练状态（如优化器参数），支持**继续微调**。 - 包含配置文件（`config.json`）、分词器文件（`tokenizer.json`）等，构成完整的 Hugging Face 模型目录。 - 文件体积较大（通常数十GB）。 * **适用场景** - 需要进一步微调或实验性调整。 - 在 PyTorch 或 Hugging Face `transformers` 库中直接加载使用。 * **加载示例**： ```python from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("./output/your_model_dir") ``` --- ### **2. Hugging Face Hub 格式** * **特点** - 结构与 PyTorch 原生格式相同，但上传至 Hugging Face Hub。 - 可通过在线标识符（如 `username/model_name`）直接调用。 * **适用场景** - 开源共享模型。 - 快速部署到支持 Hugging Face 的平台（如 Gradio、Streamlit）。 * **上传命令**： ```bash llama-factory export --model_name ./output/your_model_dir --hub_name username/model_name ``` --- ### **3. GGUF 量化格式 (`*.gguf`)** * **特点** - 使用 [llama.cpp](https://github.com/ggerganov/llama.cpp) 的量化标准，显著**减小模型体积**（可压缩至原大小的 1/4~1/8）。 - 支持 CPU 推理，并兼容 GPU 加速（通过 Metal、CUDA）。 - **不支持继续训练**。 * **适用场景** - 资源受限的边缘设备（如手机、树莓派）。 - 本地轻量级部署（搭配 `llama.cpp`、`Ollama` 等推理引擎）。 * **生成命令**： ```bash llama-factory export --model_name ./output/your_model_dir --quantization q4_0 --gguf_path model.q4_0.gguf ``` --- ### **4. ONNX 格式 (`*.onnx`)** * **特点** - 跨平台标准化格式，支持 TensorRT、OpenVINO 等推理引擎。 - 需搭配 Runtime 使用（如 ONNX Runtime）。 - 通常需额外量化以提升性能。 * **适用场景** - 工业级高性能推理（低延迟、高吞吐）。 - 部署到非 Python 环境（如 C++/Java 服务）。 * **导出流程**： ```bash llama-factory export --model_name ./output/your_model_dir --onnx_path ./onnx_model ``` --- ### **关键区别总结** | **类型** | 体积 | 继续训练 | 部署灵活性 | 典型使用场景 | |------------------|------|----------|------------|-----------------------| | **PyTorch 原生** | 大 | ✅ | 高 | 研发、进一步微调 | | **Hugging Face** | 大 | ✅ | 中 | 开源共享、快速原型 | | **GGUF** | 小 | ❌ | 中 | 边缘设备、本地CPU推理 | | **ONNX** | 中 | ❌ | 高 | 工业级服务、跨平台 | > 提示：选择格式时需权衡**模型体积**、**硬件限制**和**部署环境**。例如： > - 研发调试 → PyTorch/Hugging Face 格式 > - 手机端应用 → GGUF 量化格式 > - 企业级 API 服务 → ONNX + TensorRT 优化[^1][^3] --- ### **相关问题** 1. **如何将 LLaMA-Factory 微调后的模型部署到移动端？** > 需转换为 GGUF 格式并搭配 `llama.cpp` 编译的移动端 SDK，重点在于量化策略选择（如 q4_k_m）。 2. **PyTorch 模型如何进一步优化推理速度？** > 可尝试模型剪枝、蒸馏或导出为 ONNX 后应用 TensorRT 加速，量化（如 AWQ/GPTQ）能显著降低延迟[^1]。 3. **微调后的模型上传 Hugging Face Hub 有哪些注意事项？** > 需包含完整的 `config.json`、`model.safetensors` 和许可证文件，推荐使用 `huggingface-cli` 验证完整性。 4. **GGUF 格式的不同量化等级（q4_0/q5_k_m）如何选择？** > q4_0 体积最小但精度损失较大，q5_k_m 平衡精度与速度，实测 perplexity 下降 ≤0.5 时优先选高量化等级[^3]。 > 引用说明：模型导出策略需匹配部署环境，量化方法直接影响推理效率[^1]；数据集配置的规范性也会影响输出模型质量[^3]。