第1周 第1天
-
中文资源: 使用大型语言模型进行监督微调(SFT)从想法到实现的工作过程中理解SFT的工作原理 – 优快云博客【9】
-
英文原文: Training Language Models to Follow Instructions with Human Feedback – OpenAI InstructGPT 论文【12】
-
代码/数据: Hugging Face 官方指南:Fine-tuning Transformers for Sequence Generation(微调Transformer模型教程)【50】
第1周 第2天
-
中文资源: 大规模SFT微调指令数据的生成 – 知乎专栏(介绍如何自动化构造SFT指令数据)【20】
-
英文原文: Self-Instruct: Aligning Language Models with Self-Generated Instructions – 自指令数据生成方法论文【20】
-
代码/数据: BELLE:开放中文指令数据集(GitHub 项目)qianfan.cloud.baidu.com
第1周 第3天
-
中文资源: 大模型SFT数据选择方法综述 – 优快云博客(涵盖IFD、SuperFilter、MoDS等数据筛选技术)【15】
-
英文原文: MoDS: Model-oriented Data Selection for Instruction Tuning – 指令数据自动筛选论文【24】
-
代码/数据: CASIA-LM/MoDS – 指令数据筛选算法开源实现(GitHub)github.com
第1周 第4天
-
中文资源: 大模型微调基本概念(三):SFT最佳实践:数据集准备、SFT超参数调整 – 优快云博客【26】
-
英文原文: LLaMA 2: Open Foundation and Fine-Tuned Chat Models – Meta AI LLaMA 2 模型及指令微调论文【31】
-
代码/数据: BAAI/COIG-PC-Lite – 中文指令数据集精简版(每个任务200条指令,用于快速实验)【34】
第1周 第5天
-
中文资源: 深入理解LoRA:让大模型更聪明地学习 – 优快云博客【76】
-
英文原文: LoRA: Low-Rank Adaptation of Large Language Models – 微软提出的低秩适应微调方法论文【76】
-
代码/数据: Hugging Face PEFT 库 – 参数高效微调实现(GitHub)blog.youkuaiyun.com
第1周 第6天
-
中文资源: 中文大模型数据集汇总 – 优快云博客(列举BELLE、COIG、Firefly、MOSS等开源指令数据)【78】
-
英文原文: Free Dolly:Databricks博客 – Introducing the World’s First Truly Open Instruction-Tuned LLM(Dolly 2.0 开放指令模型发布)【79】
-
代码/数据: databricks-dolly-15k – 15k条高质量指令/响应数据集(Hugging Face 数据集)【80】
第1周 第7天
-
中文资源: Alpaca:一个强大的、可复现的指令遵循模型 – 知乎专栏(斯坦福 Alpaca 模型原理与数据生成介绍)【84】
-
英文原文: Stanford Alpaca: A Strong, Replicable Instruction-Following Model – Stanford CRFM 官方博客/报告zhuanlan.zhihu.com
-
代码/数据: tatsu-lab/stanford_alpaca – Alpaca 52K指令数据及复现代码(GitHub)github.com
第2周 第1天
-
中文资源: ChatGPT 背后的“功臣”——RLHF 技术详解 – Hugging Face 官方博客中文版【49】
-
英文原文: Illustrating Reinforcement Learning from Human Feedback (RLHF) – Hugging Face Blog 原文【50】
-
代码/数据: OpenAI ChatGPT 模型训练流程 (三步对齐) – OpenAI 官方示意图huggingface.cohuggingface.co
第2周 第2天
-
中文资源: 想训练ChatGPT?得先弄明白Reward Model怎么训 – 知乎专栏(奖励模型训练方法讲解)【51】
-
英文原文: Learning to Summarize from Human Feedback – OpenAI 利用人类反馈训练摘要模型论文【58】
-
代码/数据: Anthropic HH-RLHF 人类偏好数据集 – 约12万条对话比较数据(开放用于奖励模型训练)zhuanlan.zhihu.com
第2周 第3天
-
中文资源: 大模型RLHF中PPO的直观理解 – Machine Learning Pod 博客【62】
-
英文原文: Proximal Policy Optimization Algorithms – PPO 算法提出论文【63】
-
代码/数据: CarperAI TRLX 库 – 用于语言模型PPO微调的开源代码(GitHub)arxiv.orgsimmering.dev
第2周 第4天
-
中文资源: 从零实现带RLHF的类ChatGPT:逐行解析微软DeepSpeed Chat的源码 – 优快云博客【65】
-
英文原文: DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models – 微软RLHF框架论文blog.youkuaiyun.com
-
代码/数据: microsoft/DeepSpeedExamples – DeepSpeed-Chat 完整代码仓库(GitHub)blog.youkuaiyun.com
第2周 第5天
-
中文资源: “StackLLaMA”:用RLHF训练LLaMA的手把手教程 – Hugging Face 官方博客中文版【69】
-
英文原文: “StackLLaMA”: An RLHF Step-by-Step Training Guide – Hugging Face 博客原文huggingface.co
-
代码/数据: lvwerra/stack-exchange-paired – Stack Exchange问答偏好数据集 (Hugging Face)huggingface.co
第2周 第6天
-
中文资源: ChatGPT全球最大开源平替 OpenAssistant – 优快云博客(OpenAssistant 项目介绍)【74】
-
英文原文: Democratizing Large Language Model Alignment – OpenAssistant Conversations 数据集及模型论文【75】
-
代码/数据: OpenAssistant/oasst1 – OpenAssistant 对话及偏好数据集(Hugging Face 数据集)huggingface.co
第2周 第7天
-
中文资源: RLHF 开源实现整理:TRL、ColossalChat、DeepSpeed-Chat 等 – 百度智能云社区文章cloud.baidu.com
-
英文原文: GitHub – Transformer Reinforcement Learning (TRL) – Hugging Face TRL 库简介与文档finance.sina.com.cn
-
代码/数据: Awesome-RLHF – GitHub 上RLHF资源大全(涵盖论文、代码仓库、数据集)github.com
第3周 第1天
-
中文资源: DPO:直接偏好优化算法详解(学习笔记) – 博客园【35】
-
英文原文: Direct Preference Optimization: Your Language Model is Secretly a Reward Model – DPO 方法论文【36】
-
代码/数据: Hugging Face TRL 示例 – DPO LLaMA-2 微调脚本(GitHub)【38】
第3周 第2天
-
中文资源: 【RLHF系列】Constitutional AI:用规则让模型自我进化 – 知乎专栏【48】
-
英文原文: Constitutional AI: Harmlessness from AI Feedback – Anthropic 宪法AI 方法论文foresightnews.pro
-
代码/数据: Anthropic 原则集合 (v1.0) – 宪法AI 所用的规则清单(Anthropic 官方博客)foresightnews.pro
第3周 第3天
-
中文资源: DeepSeek GRM新范式(自我原则批评调整SPCT)技术解析 – OSCHINA社区【45】
-
英文原文: Inference-Time Scaling for Generatist Reward Modeling – 清华&DeepSeek GRM方法论文oschina.net
-
代码/数据: (如适用)DeepSeek GRM 27B 模型权重及SPCT实现细节(将在R2项目中公开)oschina.net
第3周 第4天
-
中文资源: 一文搞懂SFT、RLHF、DPO…新方法IFT解读 – AI科技评论(AI TNT)文章【83】
-
英文原文: Intuitive Fine-Tuning (IFT) – 提出融合SFT/RLHF/DPO的新训练范式论文m.aitntnews.comm.aitntnews.com
-
代码/数据: (如适用)IFT相关开源代码预计随论文发布(当前暂无公开实现)
第3周 第5天
-
中文资源: 微软 DeepSpeed-Chat:一键式RLHF训练ChatGPT – 优快云博客【65】
-
英文原文: DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models – 微软官方技术报告blog.youkuaiyun.com
-
代码/数据: DeepSpeed Chat GitHub 仓库 – 完整RLHF训练代码blog.youkuaiyun.com
第3周 第6天
-
中文资源: ColossalChat:开源ChatGPT复现全流程 – 智源社区文章【91】
-
英文原文: ColossalChat: An Open-Source Solution for Cloning ChatGPT with a Complete RLHF Pipeline – Medium 技术博文【93】
-
代码/数据: ColossalAI/ColossalChat – RLHF全流程实现代码(GitHub)hub.baai.ac.cn
第3周 第7天
-
中文资源: OpenAssistant 开源对话模型项目简介 – 优快云博客【74】
-
英文原文: Democratizing Large Language Model Alignment – 开源对话数据集 OASST1 发布论文【75】
-
代码/数据: LAION-AI/Open-Assistant – OpenAssistant 项目源码(GitHub)github.com
第4周 第1天
-
中文资源: OpenRLHF:大模型对齐新框架发布 – 掘金平台(机器之心)文章【94】
-
英文原文: OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework – 开源RLHF框架论文juejin.cn
-
代码/数据: OpenRLHF/OpenRLHF – 开源RLHF分布式训练框架代码(GitHub)【96】
第4周 第2天
-
过滤与蒸馏(Data Filtering & Distillation)
-
多轮对话微调(Multi-turn Finetuning)
第4周 第3天
-
Tool-Use/Function Calling 微调
- 插件能力(Toolformer-style)训练
第4周 第4天
-
插件能力(Toolformer-style)训练
-
知识增强(Knowledge Retuning)
第4周 第5~7天
-
复习巩固,查漏补缺。
-
待实际完成该计划后再补充调整
709

被折叠的 条评论
为什么被折叠?



