开启大模型时代的ChatGPT系列:包含原理、RLHF等
文章平均质量分 96
涉及:①ChatGPT原理系列、②类ChatGPT的微调/部署/实现(涵盖英文和中文两类)、③LLM应用:垂类模型、与langchain/知识图谱的结合,至于AIGC/AI绘画/CV多模态已放在另一个专栏里,无论哪个专栏,始终在不断改进、不断更新
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文总览OpenAI o1相关的技术:从CoT、Quiet-STaR、Self-Correct、Self-play RL、MCTS等到类o1模型rStar-Math
可能是去年写或讲的关于ChatGPT原理的文章和课程,影响力太大了导致自从OpenAI o1出来后,每过两天,就有朋友问,“校长 o1啥时候出解读或课程”,实在是各个大模型项目上的事情太多,加之近期一直在抠机器人(比如本博客内连发了五篇机器人相关的文章,再不刻意强插一下比如o1,真的很难停下来)但,今天又有朋友来问,故,准备并行开写o1了一开始,我主要是看的这几个资料但随着本文越写越深,挖出来的相关资料也越来越多,我会竭尽所能,确保本文具备以下两大特征。原创 2024-10-12 18:37:59 · 62041 阅读 · 5 评论 -
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.youkuaiyun.com/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...原创 2020-01-05 20:42:56 · 774023 阅读 · 506 评论 -
RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr
今年5月份,斯坦福的一些研究者提出了RLHF的替代算法:直接偏好优化(Direct Preference Optimization,简称DPO),其对应论文为《那其与ChatGPT所用的RLHF有何本质区别呢,简言之RLHF将奖励模型拟合到人类偏好数据集上,然后使用RL方法比如PPO算法优化语言模型的策略,以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)原创 2023-11-06 12:56:05 · 26162 阅读 · 4 评论 -
从零实现带RLHF的类ChatGPT:逐行解析微软DeepSpeed Chat的源码
如此文所述,微软开源的DeepSpeed Chat(简称DSC)实现的不错,会给你一个完整而通透的“PPO算法/RLHF”的代码实现全流程,好的资料可以让你事半功抠完它的关键代码后,你会发现和之前本博客内另一篇写的原理部分都一一对应起来了(ChatGPT技术原理解析,只有懂原理才能更好的理解实现或实际实现,特别是该文的第三部分),而把论文、原理/算法、公式、代码一一对应,可以让你的理解有个质变微软开源的DeepSpeed Chat :一键式RLHF训练,可以用于自己训练ChatGPT中文版。原创 2023-09-17 10:46:29 · 14389 阅读 · 0 评论 -
详解带RLHF的类ChatGPT:从TRL、ChatLLaMA到ColossalChat、DSC
如果未提供模板,则使用默认模板artifacts/generate_rewards.py,注:所有模板都必须保存在一个名为 .json 的 JSON 文件中templates.json。其中列表包含多个dictionaries,每个dictionary 对应一个数据样本,建议使用超过 1000 个数据样本来进行对actor的训练。在获得最终模型权重后,还可通过量化降低推理硬件成本,并启动在线推理服务,仅需单张约 4GB 显存的 GPU 即可完成 70 亿参数模型推理服务部署。原创 2023-04-06 18:49:43 · 22719 阅读 · 12 评论 -
LLM/ChatGPT与多模态必读论文150篇(已更至第101篇)
2022年8月发布的Stable Diffusion基于Latent Diffusion Models,专门用于文图生成任务。总之,读的论文越多,博客内相关笔记的质量将飞速提升 自己的技术研究能力也能有巨大飞跃。且考虑到为避免上篇文章篇幅太长而影响完读率,故把这100论文的清单抽取出来独立成本文。// 23年2.27日起,本榜单几乎每天更新中。原创 2023-03-13 21:54:14 · 35717 阅读 · 13 评论 -
ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步原创 2023-01-15 22:01:27 · 221401 阅读 · 143 评论 -
强化学习极简入门:通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO
强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去,如今都看得懂了,故如果读文本之前,你正在被RL各种公式困扰,相信看完这篇RL极简入门后就完全不一样了)。原创 2023-02-10 11:12:38 · 124236 阅读 · 191 评论
分享