论文 | 大模型 | Python | CUDA_RexGX的博客-优快云博客

论文 | 大模型 | Python | CUDA

关注

文章平均质量分 95

论文 | 大模型 | Python | CUDA

关注数：文章数：26 文章阅读量：26426 文章收藏量：610

作者: RexGX

这个作者很懒，什么都没留下…

展开

专栏收录文章

【模型推理篇】vLLM核心思想 - ④ 投机解码、投机采样

再过几天就是 2026 年了，对即将过去的 2025 年做个小总结吧；虽然前些年对机器学习有些知识储备，但系统性的进行“复健”，是从年初deepseek爆火之后才开始的；同时因为平日里工作已经非常卷了（特别最近休息的都很差），也只能再去挤那为数不多的个人时间，精力确实有限，虽然各个方向都有所涉猎，但没办法做到很深入，自己定的 todo list 上还有好几页没有完成…但 25 年一共输出了 26 篇博客（确实不少，佩服自己这方面的坚持），也只是今年收获的一小部分，记录在自己小本本上的东西远大于这些内容。

原创 2025-12-26 08:53:33 · 383 阅读 · 0 评论
【模型推理篇】vLLM核心思想 - ③ Kernel内核优化（attn backend、cuBLAS、CUTLASS）

最近身体抱恙断更了，北京这温度不穿秋裤确实不行…长期作为AI修仙界的散修（偶像韩立），也形成了自己一套学习新招式的套路，就比如像下面这种 “官方简历”，就至少需要全部掌握；所以继续看看vLLM的其他核心能力，今天就盘盘它偏底层的内核优化；

原创 2025-12-03 08:00:00 · 1670 阅读 · 0 评论
【模型推理篇】vLLM核心思想 - ② 动态批处理 continuous batching

上篇文章介绍了vLLM核心之一的，今天继续复习；因为我目前就是在做调度系统，而这种动态batching也算一种调度，并且本周也还被人问到了，所以即便周末北平天气这么好，非常想去爬山，但也还是先坚持沉淀一下；以下内容均来自对vLLM 官方文档和（截至2025-11月最新tag）的个人理解，如果错误请指正；

原创 2025-11-02 12:15:00 · 1320 阅读 · 0 评论
【模型推理篇】vLLM核心思想 - ① 分页注意力 paged attention

开始前的碎碎念…近期在公司内部尝试了几个大模型相关岗位，不是太顺利，问题还是集中在，“鸡生蛋，蛋生鸡”，虽然自认为有着还算不错的知识储备和热情，但还是会被“过往项目经验匹配度问题”婉拒，有的很礼貌，有的则相当不客气，甚至直接不看好。不过我的目标很明确，也清楚过程注定不会轻松，所以在不影响主业的情况下，会继续用个人时间学习和沉淀；一次不行就等下一次，不信没有机会！些许风霜罢了~早上看到 3I/ATLAS 快到木卫二了，降临派认为它是朝着地球来的；

原创 2025-10-26 10:53:07 · 838 阅读 · 0 评论
【模型训练篇】VeRL的二次开发（魔改）

前几篇文章分别介绍了VeRL的理论基础与基本使用，作为开源基建，不仅要掌握其用法，更要能够根据需求进行定制化二次开发，今天结合了其他大佬的思路，简单介绍如何下魔改VeRL；

原创 2025-10-15 07:00:00 · 965 阅读 · 0 评论
【模型训练篇】VeRL的使用 - Agentic RL（智能体范式RL）

前三篇文章分别介绍了VeRL的分布式基础、底层原理和使用VeRL实现“对齐”范式RL，临近十一假期，抽时间赶出第四篇VeRL的学习笔记，今天介绍使用VeRL实现Agentic RL。

原创 2025-09-26 08:00:00 · 1461 阅读 · 0 评论
【模型训练篇】VeRL的使用 - RL(PPO)与源码

继续学习字节家的VeRL，今天来看看VeRL的RL，是VeRL系列的第三篇文章（话说近期好多大事儿，我司发布了Longcat、韩立结婴、阿里周五发布了QWen-Next都是好东西啊，学不过来了damn）前两篇文章分别介绍了VeRL的分布式基础和其底层原理，下面就以RL的PPO为例，同时结合源码，看看具体的使用。

原创 2025-09-14 07:46:48 · 907 阅读 · 0 评论
【模型训练篇】VeRL核心思想 - 论文HybridFlow

继续学习字节家的VeRL，今天介绍的是VeRL的核心思想，论文，是VeRLVeRLRay。

原创 2025-09-08 00:04:19 · 1121 阅读 · 0 评论
【模型训练篇】VeRL分布式基础 - 框架Ray

前两篇文章简单复习了训练框架和，接着学习一下字节家的VeRLRayVeRLVeRLVeRLAgentic RLVeRL下面先介绍一下VeRL等众多RL框架的分布式基础，Ray。

原创 2025-08-31 08:34:24 · 1377 阅读 · 0 评论
【模型训练篇】抱脸虫 - TRL

上篇文章提到过“模型训练篇”会重点学习字节家的Verl（阿里字节比我团在AI领域上确实走的更快一些，主要是它们搞车轮战啊，先有字节社区团购，再是京东淘宝外卖，跑题了…），但由于内容较多特别是它那片论文都没看完，需要更多时间细品，所以临时加更一期复习个稍微简单点的抱脸家的TRL。话说看到这种字体就想起 cyberpunk 夜之城了和 V震天了…

原创 2025-08-21 07:00:00 · 1083 阅读 · 0 评论
[模型训练篇] 皮衣老黄 - Megatron

随着秋天第一杯奶茶活动的结束，也标志着夏站进入了稳定期，不确定后续还打不打以及怎么打，但短期内至少可以喘口气正常工作生活了… 我的LLM的复习计划也可以正常执行了…前几篇文章复习了数据并行策略以及VerlvLLMSGLang今天就先从皮衣家的Megatron开始。

原创 2025-08-12 07:00:00 · 825 阅读 · 0 评论
【显存瘦身/算力加速】Flash Attention 2/3

上篇文章介绍了中的基础FA1，今天继续复习FA2和FA3。

原创 2025-07-25 08:24:09 · 1030 阅读 · 0 评论
【显存瘦身/算力加速】Flash Attention 1

上篇文章中的一处留白，是关于SP在Megatron中的具体实现，但由于依赖，所以决定先把复习一下，由于内容较多，本期先复习基础中的基础。

原创 2025-07-22 09:14:48 · 789 阅读 · 0 评论
[分布式并行策略] 序列并行 SP/CP

TP会显著增加节点间的通信成本，所以一般会限制在可以通过NVLink等高速访问的小型集群中（例如单机多卡）PP需要缓存激活值，为了缓解气泡问题，通常采用recompute重计算的方式，但会显著降低训练效率虽然可以使用DRAM缓解 GPU显存不足的问题，但速度很慢，不说on-chip的SRAM，连HBM也差一个量级sp 序列并行和(有选择性的重计算) 不在本期文章的讨论范围内，下面只是简单罗列一下Megatron支持的可选项，之后会有专门的Megatron：仅重计算显存占用高，但计算代价低的算子。

原创 2025-07-18 07:00:00 · 1546 阅读 · 0 评论
[分布式并行] 流水线并行 PP（NaivePP/GPipe/F-then-B/PipeDream/1F1B）

前三篇文章分别介绍了EPDPTPEPDPTP接下来会尽量做到由浅入深的介绍MP中的PP，既流水线并行策略。

原创 2025-06-29 16:04:54 · 1150 阅读 · 0 评论
[分布式并行策略] 张量并行 TP

前两篇文章分别介绍了EP和DP；相比于DP复杂的多个变种DDPFSDPZeRO1/2/3TP以及接下来会结合PyTorch代码，尽量做到由浅入深的介绍分布式并行策略MP中的TP。

原创 2025-06-24 09:01:58 · 972 阅读 · 0 评论
[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO

上篇文章介绍了分布式并行策略中的EP，简单的提到了其他几种并行策略，但碍于精力和篇幅限制决定将内容分几期，本期首先介绍DP，但并不是因为DP简单，相反DP的水也很深，例如：“DP到底同步的是什么数据？怎么同步的？“，“AllReduce/Ring-AllReduce是什么？”，“ZeRO1、2、3又都是什么？” 等各种问题，会结合PyTorch代码，尽量做到详细由浅入深。

原创 2025-06-18 09:26:23 · 1179 阅读 · 0 评论
[论文品鉴] DeepSeek V3 最新论文之 DeepEP

继续介绍DeepSeek上月发布的关于V3的论文之前几篇文章已经把V3这张架构图中的原理介绍的7788了，接下来介绍更底层的。

原创 2025-06-10 09:22:45 · 1076 阅读 · 0 评论
[论文品鉴] DeepSeek V3 最新论文之 FP8混合精度训练

继续介绍DeepSeek最近发布的关于V3的论文，且依然会结合年初的论文一起，同时也参考了17年混合精度训练的经典论文。

原创 2025-05-28 09:28:32 · 1185 阅读 · 0 评论
[论文品鉴] DeepSeek V3 最新论文之 MTP

继续介绍DeepSeek最近发布的关于V3的论文，且依然会结合年初的论文一起。下面DeepSeek-V3的这张架构图，前两篇文章已经分别介绍了的MLA和MoE，剩下最后的一块内容就是的MTP了。

原创 2025-05-25 18:31:34 · 783 阅读 · 0 评论
[论文+源码] DeepSeek V3 最新论文之 DeepSeekMoE

继续介绍DeepSeek上周三发布的关于V3的论文，今天要说的是。本文还会结合24年的论文与的 21年的论文。

原创 2025-05-22 08:13:08 · 974 阅读 · 0 评论
[论文品鉴] DeepSeek V3 最新论文之 MHA、MQA、GQA、MLA

DeepSeek本周三发了篇关于V3的论文，算是年初论文的姊妹篇；主要讲解了，DeepSeek团队如何通过软硬件相结合的方式，只需要2048块Nvidia H800就可以训练出v3。下图是V3的基础架构，要想做到透彻理解，所需的知识储备也挺多挺杂的，所以决定通过多篇文章来“品鉴”；今天介绍MLA，但又不能只说MLA，需要把整个“family 累A”（我超好尬）都介绍一下，也包括MHAMQAGQA。

原创 2025-05-18 12:36:21 · 913 阅读 · 0 评论
[工欲善其事] LoRA

一直有关注公司在LLM领域的相关新闻，订阅的“抱脸虫”推送了一个feed，看了下是公司开源了一个语音交互模型（text to speech）但介绍里只有简单的一句 “从千问微调来的”，所以并不清楚都做了哪些工作，觉得公司在宣发方面还是太低调了，一如既往的闷头做事。正好近期在复习LLM相关知识，也没有计划太系统的复习路径，所以就看到什么复习什么，今天就说说LoRA。

原创 2025-05-15 09:32:48 · 666 阅读 · 0 评论
[工欲善其事] 从Agent到MCP到A2A

近期在疯狂复习LLM领域的相关知识，想着还是通过输出的方式沉淀下来，今天介绍的是应用层面的东西。

原创 2025-05-13 08:25:50 · 768 阅读 · 0 评论
[白话文] 从百草园RLHF到三味书屋DPO

原创不易，特别是手打Latex简直要了命了，转载请注明出处。-- 鲁迅说的周五看到学城有部门同事分享DPO实践，写的非常好，但总感觉有点太“学术”了，知识分享更应该考虑如何让观众接受（毕竟不是发论文），特别是DPO公式推导部分简单的一笔带过很不过瘾，所以想尝试用比较通俗易懂的白话、偏感性的描述一下我的理解。

原创 2025-05-10 11:07:26 · 792 阅读 · 0 评论
[论文品鉴] 1-bit LLM

今天看了一篇4月最新论文，觉得有点意思，决定写点东西沉淀一下。

原创 2025-04-26 11:07:07 · 660 阅读 · 0 评论

论文 | 大模型 | Python | CUDA

作者: RexGX

【模型推理篇】vLLM核心思想 - ④ 投机解码、投机采样

【模型推理篇】vLLM核心思想 - ③ Kernel内核优化（attn backend、cuBLAS、CUTLASS）

【模型推理篇】vLLM核心思想 - ② 动态批处理 continuous batching

【模型推理篇】vLLM核心思想 - ① 分页注意力 paged attention

【模型训练篇】VeRL的二次开发（魔改）

【模型训练篇】VeRL的使用 - Agentic RL（智能体范式RL）

【模型训练篇】VeRL的使用 - RL(PPO)与源码

【模型训练篇】VeRL核心思想 - 论文HybridFlow

【模型训练篇】VeRL分布式基础 - 框架Ray

【模型训练篇】抱脸虫 - TRL

[模型训练篇] 皮衣老黄 - Megatron

【显存瘦身/算力加速】Flash Attention 2/3

【显存瘦身/算力加速】Flash Attention 1

[分布式并行策略] 序列并行 SP/CP

[分布式并行] 流水线并行 PP（NaivePP/GPipe/F-then-B/PipeDream/1F1B）

[分布式并行策略] 张量并行 TP

[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO

[论文品鉴] DeepSeek V3 最新论文 之 DeepEP

[论文品鉴] DeepSeek V3 最新论文 之 FP8混合精度训练

[论文品鉴] DeepSeek V3 最新论文 之 MTP

[论文+源码] DeepSeek V3 最新论文 之 DeepSeekMoE

[论文品鉴] DeepSeek V3 最新论文 之 MHA、MQA、GQA、MLA

[工欲善其事] LoRA

[工欲善其事] 从Agent到MCP到A2A

[白话文] 从百草园RLHF到三味书屋DPO

[论文品鉴] 1-bit LLM

[论文品鉴] DeepSeek V3 最新论文之 DeepEP

[论文品鉴] DeepSeek V3 最新论文之 FP8混合精度训练

[论文品鉴] DeepSeek V3 最新论文之 MTP

[论文+源码] DeepSeek V3 最新论文之 DeepSeekMoE

[论文品鉴] DeepSeek V3 最新论文之 MHA、MQA、GQA、MLA