大语言模型微调框架学习记录:LoRA、全参数、PEFT、RLHF

本文详细介绍了微调技术,特别是高效微调的PEFT方法(如LoRA、PrefixTuning等),以及基于强化学习的RLHF在OpenAI项目中的应用。此外,还探讨了LangChain工具库,它在构建和研究基于语言模型的应用中扮演重要角色,如AutoGPT的实现。


微调与高效微调简介

讲一些基本概念内容,和之前的猜测不太一样

微调 Fine-Tuning

一般指全参数微调,即全量微调。

高效微调 PEFT

围绕部分参数进行微调的方法,目前比较常用。不过Fine-Tuning也可以代指所有微调方法。OpenAI中的在线微调API Fine-Tuning实际上也是一种高效微调。

基于强化学习的RLHF

OpenAI团队提出,2023年开源。目前最好的实现是DeepSpeedChat库,由微软维护。


下面是一些关于PEFT和RLHF的详细介绍

一、PEFT

目前主流的很多方法,包括LoRA,Prefix Tuning,P-tuning,Prompt Tuning等都属于这类方法。这些方法都被集成到Huggingface的PEFT库中,能够更方便快速的使用。

1.LoRA

Github地址:https://github.com/microsoft/LoRA
paper地址:https://arxiv.org/abs/2106.09685

基于低阶自适应的大语言模型微调方法
可以认为是PE

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值