微调课程笔记_上有晨光的博客-优快云博客

微调课程笔记

关注

文章平均质量分 90

关注数：文章数：30 文章阅读量：29620 文章收藏量：510

作者: 上有晨光

这个作者很懒，什么都没留下…

展开

RLHF（基于人类反馈的强化学习算法）的挑战与2025最新改进方向

研究方向具体技术/方法核心内容应用效果/优势奖励模型优化与方差控制增加对比对训练、结合SFT和偏好损失等发现奖励方差对优化效率关键，低方差使目标函数平坦致收敛慢，通过相关操作诱导高奖励方差提升训练效率混合编程框架提升训练效率HybridFlow框架融合单控制器灵活控制流与多控制器高效计算流优势，解耦控制与计算流程，支持多种并行策略和模型部署方式训练吞吐量相比现有系统提升1.5 - 20倍，适用于大规模模型复杂RL流程对抗恶意反馈的共识机制COBRA框架。

原创 2025-03-30 12:15:54 · 1085 阅读 · 0 评论
RLHF全链路微调LLamaFactory实践要点

使用ppo作为微调阶段，加载原始文件的大模型加载值。输出路径是针对ppo微调之后的路径。Reward model的保存路径对应界面加载的Reward模型产生的adapter块（LoRA块）的路径，在Reward model type中配置LoRA。若使用导出的奖励模型文件，加载导出路径时需注意模型兼容性，否则会报错。加载上节课Reward模型输出的LoRA的adapter块，既可以使用相对路径（相对于启动lama factory web UI命令的路径），也可以使用绝对路径。

原创 2025-03-30 12:09:32 · 403 阅读 · 0 评论
RLHF奖励模型（reward model）训练全流程讲解

无法稳定输出评分，回复内容不相关。

原创 2025-03-30 12:06:27 · 1142 阅读 · 0 评论
RLHF奖励模型与PPO的结合

核心目标：将人类偏好转化为可计算的奖励信号公式原型符号定义场景类比奖励模型：通过人类标注学习评分，将偏好转为可计算信号。PPO变种：融合奖励信号、KL约束、预训练正则，确保模型符合人类偏好且能力稳定。多阶段协同：预训练→监督微调→奖励模型→PPO优化，逐步优化模型，实现高效可控的语言生成。多阶段协同：预训练→监督微调→奖励模型→PPO优化，逐步优化模型，实现高效可控的语言生成。

原创 2025-03-30 12:00:05 · 737 阅读 · 0 评论
RLHF（基于人类反馈的强化学习）流程拆解与核心

预训练模型奖励模型训练强化学习优化最终策略模型人类反馈数据PPO算法策略更新用户输入生成回答二、RLHF在GPT中的应用1. 发展历程2018年：GPT-1（1.17亿参数）2019年：GPT-2（15亿参数）2020年：GPT-3（1750亿参数）首次引入RLHF（InstructGPT）2022年：ChatGPT（GPT-3.5）2023年：GPT-4（多模态能力）2. 应用步骤#mermaid-svg-G79gB74WyMbQj2dS {font-family:"trebuche

原创 2025-03-29 10:02:51 · 834 阅读 · 0 评论
RLHF（基于人类反馈的强化学习）技术

RLHF通过解决奖励函数局限、提升人性化表现、保障内容安全、满足个性化需求，成为大模型核心技术。其流程从预训练到人类反馈，再到奖励模型与策略优化，层层深入，精准适配人类需求。在应用时，需结合场景特点，平衡技术价值与成本，推动AI高效服务多样化需求。核心详述见下篇。

原创 2025-03-29 09:59:53 · 818 阅读 · 0 评论
PPO算法源码解读

命令行传入 webui train对应，文件中搜索train找到TRAIN对应方法点击查询“PPO”，点击run_ppo()点击ref_model可以看到ref_model有过二次加载继续找ref_model点击CustomPPOTrainer主要步骤在step方法里，搜索step(PPO 的 Step 方法指其训练流程中的核心步骤，通过策略交互、优势估计、策略优化实现稳定学习。对于第五步，trainer.py有第四个模型：：通过训练参数（如。

原创 2025-03-28 16:24:19 · 294 阅读 · 0 评论
LLamaFactory后端PPO微调实操

训练SFT模型：准备监督微调数据集，选预训练模型初始化，用数据集训练，调超参数（如学习率、训练轮数）优化权重。训练Reward奖励模型：准备含输入、输出文本及奖励分数的数据，选模型架构初始化，训练使模型准确预测奖励分数。初始化模型：用SFT模型权重初始化Reference和Actor模型，前者权重冻结，后者可训练；用奖励模型权重初始化Critic模型，其权重可训练。RLHF - PPO执行。

原创 2025-03-28 16:11:15 · 2554 阅读 · 0 评论
PPO模型微调准备知识与数据预处理

1. 预训练基座模型（Base Model）2. Instruction-tuned模型实践建议：1. 奖励模型选择原则2. 推荐模型列表下载命令示例：同一个基座模型可以用来训练出reward模型，然后再用这个基座模型进行PPO微调。思考点：相同基座模型避过拟合：增加数据多样性，采用正则化（如 Dropout）或早停策略。不同基座模型降成本：用模型蒸馏，先训练轻量级奖励模型再迁移。1. 数据集选择标准2. 数据处理步骤步骤1：数据过滤与转换步骤2：数据验证与预览步骤3：生成Alpaca格式数据

原创 2025-03-28 16:02:50 · 953 阅读 · 0 评论
大模型微调之 PPO算法中的多模型协作关系

PPO的核心部分由这四个模型进行一个组成：Actor Model（主角模型）Pre_model（参考模型）Critic Model（教练模型）Reward Model（裁判模型）训练前准备PPO循环训练Step 1：输入prompt（如“如何煮咖啡”），Actor生成回答At。Step 2：Critic预测At的长期价值Vt（如“满意度8分”）。Step 3：Reward Model计算即时奖励Rt（如“准确性7分”）。Step 4：计算优势函数，指导策略更新。Step 5：通过剪切目标函数约束策

原创 2025-03-28 15:57:49 · 753 阅读 · 0 评论
大模型微调之详解PPO算法

PPO的核心优势稳定性：剪切机制避免训练崩溃。灵活性：适用于多种任务（如对话、毒性控制）。对齐性：结合奖励模型，符合人类偏好。潜在挑战超参数（如ϵ）对结果影响较大，需谨慎调优。奖励模型的设计直接影响策略优化方向，需高质量标注数据。模型选择的考量因素任务类型：对话任务优先选择RLHF（如ChatGPT）；毒性控制选择DPO+RM（如FLAN-T5）。资源限制：LLaMA的Lora微调模式适合低成本场景。4** 未来趋势**混合算法：结合PPO与其他强化学习方法（如DPO），提升效率。

原创 2025-03-28 00:23:09 · 1118 阅读 · 0 评论
大模型微调之什么是PPO

PPO算法的重要性与概念重要性类比：PPO算法在大模型微调中至关重要，如同吃火锅的油碟、吃饺子的醋、汽车的刹车。虽不是核心算法，但能让模型调优过程更丰富，使输出更贴近生活，控制模型策略更新的节奏，避免训练不稳定。定义与应用领域：PPO全称近端策略优化算法（Proximal Policy Optimization），是强化学习领域广泛使用的策略梯度算法。常用于训练机器人、游戏AI等智能体，使其在与环境的交互中学习并改进策略，做出更好决策。大模型微调阶段对比：SFT与强化学习SFT的特点与局限。

原创 2025-03-27 22:33:22 · 295 阅读 · 0 评论
Windows系统QLORA大模型微调实战（详细版）

通过询问特定问题（如“南京一山一湖概念”“中横公路书写者”）对比不同模型回答效果，使用训练数据集验证模型准确度（基座模型约23%，lora约55%，qlora int8三轮约50%，int4约46%，int4三十轮约53%），分析不同微调方式的优劣。：记录微调过程中的显存使用（如4K数据lora微调需24G显存，int8占20G左右，int4微调约占18 - 19G显存）、时间（int8微调约两小时25分钟，int4微调约一小时）、计算量（如。**数据集转换：**下载后，编写转换代码将数据转换为。

原创 2025-03-27 22:28:14 · 1136 阅读 · 0 评论
Windows系统配置LLamaFactory大模型微调环境

优先选择Linux系统进行相关操作，因为企业中多使用Linux系统，Windows系统存在安装环境差异大、版本冲突和路径配置繁琐等问题。若只有Windows系统，可选择租赁服务器进行微调尝试。

原创 2025-03-27 22:22:23 · 691 阅读 · 0 评论
大模型微调之Qlora核心概念讲解

Qlora的关键概念包括4 - Normal Distribution（处理非正态分布数据）、Double Quantization（优化缩放因子存储）和分页机制（解决大模型在有限显存下的训练问题）。这些概念共同作用，实现了在低显存条件下高效微调大模型的目标，与传统LoRA微调相比，进一步节约了资源，拓展了模型训练的硬件适应性。

原创 2025-03-27 22:18:00 · 626 阅读 · 0 评论
大模型微调：什么是QloRA之节省内存的QloRA

本次课程聚焦于Windows系统下的QLoRA微调，深入讲解如何在该系统下运用QLoRA技术进行模型微调。

原创 2025-03-27 22:13:36 · 803 阅读 · 0 评论
LLaMA - Factory微调模型进行数据验证与deepspeed

微调全流程回顾：首先寻找数据，可从Hugging Face、国外大学合作网站（如kaggle、wikis等）或国内平台（如阿里、千言、百度等）获取。将数据处理为Alpaca或ShareGPT格式后，注册到LLaMA - Factory。接着进行微调，注意LoRA参数调整，避免资源浪费、过拟合、欠拟合以及梯度相关问题。微调后进行两次验证（导出前和导出后），评估模型整体能力。资源与格式问题：若资源不足，可使用deepspeed，但要注意版本选择。

原创 2025-03-27 22:08:34 · 1051 阅读 · 0 评论
LLaMA-Factory 模型微调指令参数详解

【代码】LLaMA-Factory 模型微调指令参数详解。

原创 2025-03-27 21:59:31 · 1502 阅读 · 0 评论
LLaMA-Factory之数据集使用与注册（NL2SQL）

本笔记全面介绍了LLaMA - Factory框架下数据集的使用与注册流程，涵盖了NL2SQL技术基础、数据集格式、数据处理与转换、数据集注册和模型微调准备等内容。在实际操作中，开发者应根据具体任务需求选择合适的数据集和模型，严格按照流程进行数据处理与注册，为高质量的模型训练奠定基础。

原创 2025-03-27 21:56:14 · 1004 阅读 · 0 评论
微调Qwen2.5做NL2sql（一）：常用数据源及使用解析

NL2SQL（Natural Language to SQL），也叫text2SQL，旨在将自然语言查询转换为可执行SQL语句，满足人们通过自然语言操作数据库的需求，应用于智能客服、报表生成、信息检索等场景。由于单纯的RAG技术无法让大模型生成SQL与数据库交互，因此需要大模型微调。

原创 2025-03-27 09:36:19 · 1410 阅读 · 0 评论
LLama Factory大模型微调之TensorBoard配置

【代码】LLama Factory大模型微调之TensorBoard配置。

原创 2025-03-27 09:22:52 · 716 阅读 · 0 评论
LLama_Factory模型微调实践基础流程*

LLama_Factory支持alpaca和sharegpt两种数据格式，其中alpaca数据集较为常用。

原创 2025-03-27 09:16:34 · 616 阅读 · 0 评论
LLaMA - Factory安装部署及微调流程

deepspeed、bitsandbytes、vllm、flash - attn等属于可选依赖。例如deepspeed可减少内存消耗，适用于内存资源有限的情况，但可能会使训练时间拉长。即便不安装这些可选依赖，LLaMA - Factory依然能够完成微调任务。

原创 2025-03-27 09:11:08 · 2787 阅读 · 0 评论
LLaMA - Factory大模型微调之LLaMA - Factory概述

LLaMA - Factory提供了用于估算不同微调方法和模型量级下显存占用的图表。图表的最左边一列列出了各种微调方法，如全参、LoRA、QLoRA等；第二列展示了不同的精度，包括FP16、8、4、2等；横向表头则呈现了不同的大模型参数量级，如7B、13B、30B等，以及混合专家型模型（如8x7B、8x22B）。

原创 2025-03-27 09:04:05 · 975 阅读 · 0 评论
大模型主流微调框架概述：LLaMA Factory和DeepSpeed

通用大模型：了解其分类（文本、图像、多模态等），以及从通用到行业再到专业领域的概念。企业应用：掌握大模型微调在企业中的应用前景和落地情况。微调必要性：理解微调与RAG的区别，以及promote、agent等技术组件的区别和融合应用。微调模型的方法和技术栈：明确调大模型所需的技术和操作方法。可微调的模型范围：了解开源模型中可用于微调的范围，根据需求选择合适模型。课程总结：本次主要介绍了大模型微调的概念、必要性、微调方向以及两个主流微调框架DeepSpeed和LLaMA - Factory。

原创 2025-03-27 08:54:59 · 1063 阅读 · 0 评论
LLaMA - Factory与LoRA大模型微调之LoRA原理详解

LLaMA - Factory是GitHub上的开源项目，为大语言模型（LLM）提供易于使用的微调框架，支持LLaMA、Baichuan、Qwen、ChatGLM等多种架构大模型，涵盖从预训练、指令微调到RLHF阶段的开源微调解决方案。

原创 2025-03-27 08:59:46 · 771 阅读 · 0 评论
大模型高效微调技术详解

核心思想：将预训练模型的所有参数解冻，基于新任务数据重新训练，如同让一个博学的人从头学习新专业。例子：优缺点：✅ 效果最好❌ 计算成本极高（需全量显存）核心思想：保留底层特征提取能力，仅训练顶层分类器，如同保留地基只装修屋顶。例子：适用场景：核心思想：从顶层开始逐层解冻训练，逐步释放底层知识，如同从顶楼开始逐层装修。例子：优缺点：✅ 保留底层能力❌ 训练时间长核心思想：在每层Transformer前插入可训练的"小纸条"，引导模型输出方向，如同每层楼贴指示牌。修正点：对比：核心思想

原创 2025-03-26 17:40:08 · 1177 阅读 · 0 评论
大模型的微调步骤与技术栈

DeepSpeed+昇腾。是否需要多工具整合?是否需要国产化部署?

原创 2025-03-26 17:28:38 · 1054 阅读 · 0 评论
RAG与大模型微调的深度解析

RAG与微调非对立关系，可融合应用（如智慧销售：RAG检索产品，微调定制语气）。prompt、agents、微调等技术相辅相成，共同提升大模型在特定领域的输出效果。实际场景中，需根据数据特性、成本、响应速度等多维度需求，灵活选择技术方案。

原创 2025-03-26 17:26:22 · 865 阅读 · 0 评论
大模型微调课程概览

什么是通用大模型

原创 2025-03-26 17:23:27 · 522 阅读 · 0 评论

微调课程笔记

作者: 上有晨光

RLHF（基于人类反馈的强化学习算法）的挑战与2025最新改进方向

RLHF全链路微调LLamaFactory实践要点

RLHF奖励模型（reward model）训练全流程讲解

RLHF奖励模型与PPO的结合

RLHF（基于人类反馈的强化学习）流程拆解与核心

RLHF（基于人类反馈的强化学习）技术

PPO算法源码解读

LLamaFactory后端PPO微调实操

PPO模型微调准备知识与数据预处理

大模型微调之 PPO算法中的多模型协作关系

大模型微调之 详解PPO算法

大模型微调之什么是PPO

Windows系统QLORA大模型微调实战（详细版）

Windows系统配置LLamaFactory大模型微调环境

大模型微调之Qlora核心概念讲解

大模型微调：什么是QloRA之节省内存的QloRA

LLaMA - Factory微调模型进行数据验证与deepspeed

LLaMA-Factory 模型微调指令参数详解

LLaMA-Factory之数据集使用与注册（NL2SQL）

微调Qwen2.5做NL2sql（一）：常用数据源及使用解析

LLama Factory大模型微调之TensorBoard配置

LLama_Factory模型微调实践基础流程*

LLaMA - Factory安装部署及微调流程

LLaMA - Factory大模型微调之LLaMA - Factory概述

大模型主流微调框架概述：LLaMA Factory和DeepSpeed

LLaMA - Factory与LoRA大模型微调之LoRA原理详解

大模型高效微调技术详解

大模型的微调步骤与技术栈

RAG与大模型微调的深度解析

大模型微调课程概览

大模型微调之详解PPO算法