引言
trl(Transformer Reinforcement Learning)是一个由Hugging Face开发的全栈Python库,专门用于通过强化学习(RL)微调和对齐大型语言模型(LLM)和扩散模型。它整合了监督微调(SFT)、奖励建模(RM)、近端策略优化(PPO)和直接偏好优化(DPO)等核心方法,旨在帮助开发者和研究者高效优化模型行为,使其更符合人类偏好或特定任务需求。
可见,TRL虽然从名字上看,是针对强化学习的,但人家也支持监督微调(SFT)
一、trl的核心功能与应用场景
- 监督微调(SFT)
在特定数据集上调整预训练模型,使其适应新任务(如生成积极文本、代码补全)。
from trl import SFTTrainer
trainer =