- 博客(9)
- 收藏
- 关注
原创 LLM基础学习05:TRPO/PPO/DPO理论解析及基于GRPO训练的Qwen2.5-1.5B-Instruct在GSM8K上的效果验证
TRPO前的部分为学习【王树森】深度强化学习(DRL)的简要笔记(基本就是课程关键信息截图)(课程github),前面的部分都非常简要,从PPO开始的部分才是学习原论文的详细笔记。学习过程中的一些基础代码则是基于Huggingface Deep RL Course(本文不涉及关于强化学习具体代码的实现)。最后的DeepSeek GRPO代码则是基于开源的别人的复现整了一个低配运行版本来进行分析。另外,DLC中进行了更多的实验,发现效果这个GRPO的效果非常的好!!!本文的所有代码都放在了仓库Basic-LL
2025-03-09 23:55:32
726
原创 LLM基础学习04:LoRA变种原理与实践全解析——LoRA+/rsLoRA/DoRA/PiSSA多方法代码实验与GSM8K评估
根据前一篇最后的结论,现在决定选取选取作为base model,选取GSM8K作为微调数据集完整整篇文章的实验和记录。本文主要依据中LoRA相关的部分进行原理的学习和代码实验的比较(包括原始LoRA、LoRA+、rsLoRA、DoRA和PiSSA),并且在每个微调方法中贴上对应的论文链接。后文中全部方法中与微调相关的参数均由Deepseek的建议设置,其他参数全部相同(每个方法测试lora_rank为8、16和512),每个方法中的“实验”小节仅展示训练过程的曲线,最终结果在“结果对比”中进行展示。
2025-02-16 11:22:48
1043
原创 LLM基础学习03:Qwen2.5-1.5B-Instruct指令微调全流程实践——LLaMA Factory框架与GSM8K评估
LLM的训练中大致可以分为六个任务:data preparation(数据准备), pre-training(预训练), fine-tuning(微调), instruction-tuning(指令调优), preference alignment(偏好对齐), and applications(下游应用)。关于数据准备和预训练阶段,通常需要进行大量的准备工作和充足的显卡资源,作者作为个人爱好学习者目前是接触不到的;
2025-02-10 22:02:39
1248
原创 LLM基础学习02:分布式训练核心架构与多级并行策略详解——DDP/FSDP/ZeRO实战代码、显存优化方案及技术资源全景索引
并行方案包括:Hybrid Parallelism(混合并行), Auto Parallelism(自动并行), and Heterogeneous Parallelism(异构并行),目前以混合并行最为常见,也是最成熟最容易插入到自己的代码中实现即插即用的,所以后面主要是对混合并行进行简要的原理介绍和具体的代码实现,其它并行技术则会贴上一些介绍的比较好的博客或者原论文以供阅读。data parallelism:数据并行,
2025-02-06 21:43:08
1040
原创 LLM基础学习01:LLM解码策略和显存占用计算
本文主要是作者的学习笔记,源头是希望自己有一定的知识储备和对LLM感兴趣(其实是导师的项目没有指导不太做得下去,顺带追下热点)。所以希望以某个LLM教程作为基础,自己选择性的学习教程中的知识,同时会根据学习的进展自由补充拓展相关的知识内容,尽量记录下学习过程中参考过的所有资料进行引用,这样在简略带过的地方也可以给想要了解的同学一个方向,希望最后可以形成一个系统、完整的学习路径帮助到更多想要学习LLM的同学,希望大家一起学习一起进步!
2025-02-05 17:38:52
802
原创 AnnotatedTransformer中文pycharm项目版
本项目主要是将AnnotatedTransformer原文中的jupyter版本的代码转换成pycharm项目的形式来进行翻译注释和运行(jupyter中的可视化部分没有添加到项目中)。另外,就运行该代码中间出现的问题进行了记录,希望帮助到后面学习的人。
2024-07-14 15:55:15
347
原创 Transformer的简单实现:CS224n作业5代码解析
CS224n作业5的项目代码解析,实现了一个简单Transformer模型,基于维基百科数据预训练并在问答数据集上进行微调。
2024-06-18 17:56:52
1257
原创 带注意力的LSTM翻译模型:在数据流动和维度变化中分析原理和核心代码
从数据流动及维度变化的角度出发对模型进行解释,着重关注计算过程中张量维度的变化,简单介绍模型原理到代码实践之间的处理
2024-06-13 13:09:41
1004
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人