QLoRA：在你的GPU上微调大型语言模型

runner000001

已于 2025-07-04 10:18:43 修改

阅读量950

点赞数 24

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：语言模型人工智能自然语言处理

于 2025-07-01 09:56:13 首次发布

本文链接：https://blog.youkuaiyun.com/xuner1213/article/details/149039744

LLM 专栏收录该内容

80 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

1️⃣ Standard（标准微调）

模型参数：16-bit（通常是 FP16）
Optimizer State：32-bit
直接更新整个模型，内存占用大

2️⃣ LoRA（Low-Rank Adaptation）

模型仍为 16-bit，只冻结预训练模型权重
添加多个小的可训练 Adapter（16-bit）
只训练 Adapter + 优化器状态（32-bit）
大幅减少可训练参数数量和内存使用

3️⃣ QLoRA（Quantized LoRA）

模型参数被量化为 4-bit（极大节省内存）
模型权重不可训练
只训练 16-bit 的 Adapter 层（与 LoRA 类似）
优化器状态仍为 32-bit
支持 CPU Paging：当显存不足时，将优化器状态分页到 CPU 内存中，

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

runner000001

关注关注

24
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

使用 AutoRound 的 QLoRA：在您的 GPU 上实现更经济高效的 LLM 微调

人工智能领域专家

07-02

908

借助 QLoRA 技术，我们可以在消费级硬件上对大型语言模型（LLMs）进行微调。这种参数高效微调方法会对模型参数进行量化并冻结，然后在模型顶层微调适配器。QLoRA 最初由 bitsandbytes 量化框架的作者提出。得益于 NormalFloat4（NF4）数据类型的应用，bitsandbytes 量化表现非常出色。目前网络上大多数 QLoRA 代码都依赖 bitsandbytes 量化。但 bitsandbytes 存在若干限制：无法实现低于 4 比特的量化精度，且会显著拖慢模型速度。

LoRA 和 QLoRA：大模型的轻量级高效微调方法

qq_43799400的博客

08-01

2446

LoRA 和 QLoRA：大模型的轻量级高效微调方法

参与评论您还未登录，请先登录后发表或查看评论

QLORA：高效微调量化大型语言模型

人工智能前沿分享

10-18

1227

人工智能咨询培训老师叶梓转载标明出处传统的16位精度微调需要超过780GB的GPU内存，对于参数量极大的模型，如65B（即650亿参数）的模型，在资源有限的情况下大模型的微调几乎是不可能的。华盛顿大学的研究者团队提出了一种名为QLORA的高效微调方法。它通过量化技术和低秩适配器（LoRA）显著降低了微调过程中的内存需求，使得在单个消费级 GPU 上微调高达65B参数的模型成为可能。QLORA 不仅减少了资源消耗，还保持了与全精度16位微调相当的性能，为大型模型的微调和部署开辟了新的可能性。

QLoRa：在消费级GPU上微调大型语言模型

deephub

06-02

7011

LoRa让我们的微调变得简单，而QLoRa可以让我们使用消费级的GPU对具有10亿个参数的模型进行微调，并且根据QLoRa论文，性能不会显著下降。

LoRA与QLoRA：解锁高效大语言模型微调的秘密

2401_85390073的博客

08-31

1768

对于微调模型来说，常见的做法是根据损失函数，对预训练好的模型进行更新。目的是希望能够通过少量的例子，让已经具备"一定基础知识"的模型能够快速学习新的任务。例如我们已经使用大量的中文文本和英文文本训练了一个 GPT 模型，因此可以认为模型对于两种语言都有了一定的了解。那么在此基础上，可以使用少量的高质量中英双语平行语料对模型进行再次训练，就可以获得一个表现优异的翻译模型。只考虑第二点的话，一种解决方法是使用两个或多个任务的一起对模型进行微调。

如何微调大型语言模型 (LLM)-一文教会你使用 QLoRA 在自定义数据集上微调LLM

一个不怎么正经的算法工程师的博客~不定期更新一些我所覆盖领域的干货~~~包你满意噢~~

05-20

1071

介绍大型语言模型（LLM）微调方法，重点阐述参数高效微调（PEFT）技术，如 LoRA 和 QLoRA，通过冻结大部分参数、仅更新子集来降低计算成本。教程以 QLoRA 微调 Phi-2 模型为例，演示了安装库、加载数据集、预处理、模型配置及训练等步骤，最终通过 ROUGE 指标验证，显示微调后模型性能显著提升，强调微调对优化 LLM 特定任务表现的重要性。

突破硬件限制：在普通GPU上微调视觉语言模型的终极指南

gitblog_00955的博客

12-10

606

在人工智能快速发展的今天，视觉语言模型（VLM）已成为多模态AI的核心技术。然而，传统的大型视觉语言模型往往需要昂贵的专业硬件支持，这让许多开发者和中小企业望而却步。本文将为您揭示如何在普通消费级GPU上实现高效的视觉语言模型微调，让您在有限硬件资源下也能获得出色的模型性能。 ## 理解视觉语言模型微调的核心挑战视觉语言模型结合了计算机视觉和自然语言处理两大领域，其微调过程面临着独特的挑战。

【机器学习】QLoRA：基于PEFT亲手量化微调Qwen2大模型

人工智能领域博客

06-13

9149

本文首先对量化和微调的原理进行剖析，接着以Qwen2-7B为例，基于QLoRA、PEFT一步一步带着大家微调自己的大模型，本文参考全网peft+qlora微调教程，一步一排坑，让大家在网络环境不允许的情况下，也能丝滑的开启大模型微调之旅。

QLoRA：高效的LLMs微调方法，48G内存可调65B 模型

qingkahui24689的博客

06-26

1037

概括QLORA是一种有效的微调方法，它减少了内存使用，足以在单个48GB GPU上微调65B参数模型，同时保留完整的16位微调任务性能。。Guanaco模型在Vicuna基准上优于之前所有公开发布的模型，达到ChatGPT性能水平的99.3%，而只需要在单个GPU上进行24小时的微调。使用QLORA对1000多个模型进行了微调，提供了8个指令数据集、多种模型类型(LLaMA、T5)和常规微调无法运行的模型规模(例如33B和65B参数模型)上的指令跟随和聊天机器人性能的详细分析。

FSDP与QLoRA：高效微调大模型

XianxinMao的博客

03-08

1228

在有限硬件资源下，结合FSDP（Fully Sharded Data Parallel）和QLoRA（Quantized Low-Rank Adaptation）技术，可以高效微调超大规模语言模型如Llama 3.1 70B。FSDP通过将模型参数、梯度和优化器状态分布到多个GPU上，显著减少单GPU的内存压力，而QLoRA则通过量化低秩适应进一步降低内存需求。这种组合使得在相对较小的硬件配置上也能完成大规模模型的微调，显著降低了硬件门槛。然而，这种组合需要针对多GPU环境进行特定的代码调整，以确保兼容性和

LLMs之Guanaco：《QLoRA：Efficient Finetuning of Quantized LLMs》翻译与解读

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-30

4739

LLMs之Guanaco：《QLoRA：Efficient Finetuning of Quantized LLMs》翻译与解读目录《QLoRA：Efficient Finetuning of Quantized LLMs》翻译与解读 Abstract 1、Introduction引言 2、背景Background 3、QLORA微调QLORA Finetuning 4、QLoRA与标准微调的比较QLoRA vs. Standard Finetun

【大模型微调实战】LoRA与QLoRA技术详解：用消费级GPU微调百亿参数模型

资深全栈架构师，乐于在优快云分享技术见解，与大家携手共进，共攀技术巅峰！

04-28

1168

💎：QLoRA技术使65B大模型微调仅需24GB显存！附《千条指令微调数据集》📂。

【LLM学习】论文学习-Qlora: QLoRA: Efficient Finetuning of Quantized LLMs

m0_62237233的博客

03-21

1208

本文介绍了一种名为QLoRA的创新方法，用于有效微调LLMs（文中Guanaco模型）。这种方法通过减少微调模型所需的内存量，使得原本需要超过780GB GPU内存的6.5B参数模型微调，现在可以在小于48GB的GPU内存下完成，同时保持与16位全参数微调的性能相当。这项技术使得目前最大的公开可用模型能够在单个GPU上微调，显著提高了LLM微调的可行性。so，重点是减少微调模型所需内存的使用——>保持性能的同时，提高了LLM微调的可能性。一种理论上最适合正态分布数据的量化的新的数据类型。

幽冥大陆(五十四)ASR C语言识别到自动化软件——东方仙盟筑基期

12-20

711

ASR（Automatic Speech Recognition，自动语音识别）技术在软件自动化命令领域正掀起一场变革。它使得软件系统能够理解人类语言，并依据指令自动执行任务。通过 ASR，用户无需手动输入复杂的命令或进行繁琐的界面操作，只需说出指令，软件就能精准响应。在自动化脚本编写中，ASR 可以实时将语音转化为代码命令。例如，在编写 Python 自动化脚本时，用户说出 “创建一个名为‘data’的列表”，ASR 系统就能将其转化为对应的 Python 代码data = []。

AI 工具实战测评：从技术性能到场景落地的全方位解析

hello world/linux

12-16

779

多模态赋能情绪理解：Qwen3-VL+LLaMA-Factory 的人脸情绪识别实战

Lab4AI的博客

12-17

832

本项目依托Lab4AI平台，基于LLaMA-Factory成功对Qwen3-VL进行了完整的微调流程。我们将传统的人脸情绪识别任务与多模态大语言模型（MLLM）相结合，探索了MLLM在视觉情绪理解中的应用。通过微调Qwen3-VL，我们成功将传统的分类任务转化为多模态推理任务，显著提升了模型在复杂场景下的鲁棒性和准确率。这一方案不仅在人脸情绪识别上取得了显著提升，还为其他视觉任务的多模态大模型应用提供了新的思路，具有广泛的应用前景。

全品类电商AI助手诞生，AI试衣+万饰穿戴+图生视频，覆盖全链路

Dreamshop_AI的博客

12-19

906

DreamshopAI升级推出三大核心功能，全面革新电商视觉生产流程：AI试衣功能通过智能识别服装款式和材质，7-15天模特拍摄缩短至几分钟；万饰穿戴功能突破品类限制，精准还原珠宝、箱包等商品的材质细节；图生视频功能将静态图片转化为高质量短视频，大幅降低视频制作门槛。系统基于千万级电商数据训练，能自动适配不同市场需求，并推出AI试衣屏Dreamfit实现线上线下体验闭环。此次升级使AI成为电商运营的核心生产力工具，将传统视觉制作效率提升3倍以上，推动电商行业进入智能化新阶段。

深入NVIDIA Nemotron-3：高效准确的技术、工具与数据深度解析

专注于人工智能领域的小何尚

12-18

889

摘要：NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构，结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算，支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练，使智能体掌握复杂任务执行能力。技术亮点包括：1)混合架构实现超长上下文推理；2)开源RL训练环境支持智能体开发；3)原生支

[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

天下事有难易乎？为之，则难者亦易矣；不为，则易者亦难矣。人之为学有难易乎？学之，则难者亦易矣；不学，则易者亦难矣。

12-20

456

本文提出AIM框架，一种无需训练的多模态大语言模型(MLLMs)推理加速方法。通过双阶段设计：在LLM前基于相似度合并视觉Token，在LLM内基于注意力重要性剪枝Token，显著降低计算量。实验表明，该方法在视频理解任务中可减少6.8倍FLOPs，在图像任务中保持3.7倍加速的同时维持性能。关键发现包括：75%视觉Token冗余、LLM早期层侧重跨模态融合而后期侧重文本推理、跨帧合并会损害视频理解等。该方法支持动态调整压缩比例，为资源受限环境下的高效多模态推理提供了实用解决方案。

QLORA：4位量化驱动的高效大模型微调技术

大模型微调经典论文《QLORA：大语言模型高效微调》由Tim Dettmers、Artidoro Pagnoni等人提出，主要针对大型语言模型（LLMs）的内存效率问题。在当今深度学习领域，随着模型规模的爆炸性增长，如何在有限硬件资源下...