
大语言模型
文章平均质量分 92
FF-Studio
这个作者很懒,什么都没留下…
展开
-
【LLM偏好对齐】ORPO:无需参考模型的整体式偏好优化
探索ORPO:无需参考模型的整体式语言模型偏好优化。这种创新算法将赔率比惩罚项融入监督微调,实现单阶段、更高效的偏好对齐。ORPO在AlpacaEval和MT-Bench等基准测试中表现卓越,显著提升了Phi-2、Llama-2和Mistral等模型的性能,超越了部分参数量更大的模型。了解ORPO如何简化对齐流程并提升模型效果!翻译 2025-05-19 20:28:53 · 28 阅读 · 0 评论 -
从“强化学习”到“PPO训练算法”【LLM大语言模型】
本篇博客从基础强化学习概念的介绍,到PPO原理,再到如何用HuggingFaceTRL在大模型上跑PPO,然后结合一个“生成更高效Python代码”的场景示例,还穿插了各种落地细节与踩坑心得。原创 2025-01-18 01:47:46 · 1071 阅读 · 0 评论 -
一文详解PPO(Proximal Policy Optimization, 近端策略优化算法)
本篇博客将从最基础的强化学习概念讲起,层层引入策略梯度、信任域策略优化(TRPO),最终剖析PPO的创新点与实现细节。然后再结合论文原文内容及一些示例代码,讨论PPO在大模型训练及实际应用(例如机器人控制、游戏、代码生成)的方式和优点。全文采用“先理论后实践”的结构,同时辅以必要的图示和代码,让读者能更清晰地把PPO的原理和实现对接起来。原创 2025-01-17 21:44:12 · 4051 阅读 · 0 评论 -
大型语言模型训练的三个阶段:从预训练到RLHF
大型语言模型的训练可分为三个阶段:预训练、指令微调和基于人类反馈的强化学习(RLHF)。预训练利用大规模文本数据,通过自监督学习,让模型掌握语法、语义等通用语言规律,形成基础模型。指令微调通过人工标注的指令-回答数据,让模型学会执行特定任务,如翻译、问答等。这一阶段采用监督学习提升模型任务能力。RLHF通过用户反馈优化模型,使其生成更符合人类偏好的答案。它借助回馈模型(RewardModel)对答案评分,并通过强化学习方法(如PPO)调整生成策略,提升用户满意度。原创 2025-01-17 21:19:59 · 1094 阅读 · 0 评论 -
用大型语言模型打造 AI Agent
探讨如何利用大型语言模型构建AIAgent,从简单任务到多步规划,AIAgent的核心能力包括感知、计划、执行、反思和工具使用。文章详细介绍了AIAgent的运行机制,并通过冒险助手的案例,展示了AIAgent如何动态应对复杂任务。未来,结合强化学习和长期记忆,AIAgent将在推动通用人工智能(AGI)发展中扮演关键角色。原创 2025-01-17 21:18:16 · 941 阅读 · 0 评论 -
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】
本文从零开始介绍了如何对“Qwen2.5Coder32B”模型进行LoRA指令微调,详细展示了环境准备、数据处理、微调步骤、推理与模型保存等流程。通过LoRA微调技术,我们可以在有限的硬件资源下针对特定指令场景(例如代码类问答、代码生成等)快速得到一个表现良好的大模型,而无需修改或更新海量的原始权重。原创 2025-01-17 21:18:02 · 2690 阅读 · 0 评论