文章目录
微调与高效微调简介
讲一些基本概念内容,和之前的猜测不太一样
微调 Fine-Tuning
一般指全参数微调,即全量微调。
高效微调 PEFT
围绕部分参数进行微调的方法,目前比较常用。不过Fine-Tuning也可以代指所有微调方法。OpenAI中的在线微调API Fine-Tuning实际上也是一种高效微调。
基于强化学习的RLHF
OpenAI团队提出,2023年开源。目前最好的实现是DeepSpeedChat库,由微软维护。
下面是一些关于PEFT和RLHF的详细介绍
一、PEFT
目前主流的很多方法,包括LoRA,Prefix Tuning,P-tuning,Prompt Tuning等都属于这类方法。这些方法都被集成到Huggingface的PEFT库中,能够更方便快速的使用。
1.LoRA
Github地址:https://github.com/microsoft/LoRA
paper地址:https://arxiv.org/abs/2106.09685
基于低阶自适应的大语言模型微调方法
可以认为是PE

本文详细介绍了微调技术,特别是高效微调的PEFT方法(如LoRA、PrefixTuning等),以及基于强化学习的RLHF在OpenAI项目中的应用。此外,还探讨了LangChain工具库,它在构建和研究基于语言模型的应用中扮演重要角色,如AutoGPT的实现。
最低0.47元/天 解锁文章
598





