论文 | 大模型 | Python | CUDA
文章平均质量分 95
论文 | 大模型 | Python | CUDA
RexGX
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【模型推理篇】vLLM核心思想 - ④ 投机解码、投机采样
再过几天就是 2026 年了,对即将过去的 2025 年做个小总结吧;虽然前些年对机器学习有些知识储备,但系统性的进行“复健”,是从年初deepseek爆火之后才开始的;同时因为平日里工作已经非常卷了(特别最近休息的都很差),也只能再去挤那为数不多的个人时间,精力确实有限,虽然各个方向都有所涉猎,但没办法做到很深入,自己定的 todo list 上还有好几页没有完成…但 25 年一共输出了 26 篇博客(确实不少,佩服自己这方面的坚持),也只是今年收获的一小部分,记录在自己小本本上的东西远大于这些内容。原创 2025-12-26 08:53:33 · 383 阅读 · 0 评论 -
【模型推理篇】vLLM核心思想 - ③ Kernel内核优化(attn backend、cuBLAS、CUTLASS)
最近身体抱恙断更了,北京这温度不穿秋裤确实不行…长期作为AI修仙界的散修(偶像韩立),也形成了自己一套学习新招式的套路,就比如像下面这种 “官方简历”,就至少需要全部掌握;所以继续看看vLLM的其他核心能力,今天就盘盘它偏底层的内核优化;原创 2025-12-03 08:00:00 · 1670 阅读 · 0 评论 -
【模型推理篇】vLLM核心思想 - ② 动态批处理 continuous batching
上篇文章介绍了vLLM核心之一的,今天继续复习;因为我目前就是在做调度系统,而这种动态batching也算一种调度,并且本周也还被人问到了, 所以即便周末北平天气这么好,非常想去爬山,但也还是先坚持沉淀一下;以下内容均来自 对vLLM 官方文档 和(截至2025-11月最新tag)的个人理解,如果错误请指正;原创 2025-11-02 12:15:00 · 1320 阅读 · 0 评论 -
【模型推理篇】vLLM核心思想 - ① 分页注意力 paged attention
开始前的碎碎念…近期在公司内部尝试了几个大模型相关岗位,不是太顺利,问题还是集中在,“鸡生蛋,蛋生鸡”,虽然自认为有着还算不错的知识储备和热情,但还是会被“过往项目经验匹配度问题”婉拒,有的很礼貌,有的则相当不客气,甚至直接不看好。不过我的目标很明确,也清楚过程注定不会轻松,所以在不影响主业的情况下,会继续用个人时间学习和沉淀;一次不行就等下一次,不信没有机会!些许风霜罢了~早上看到 3I/ATLAS 快到 木卫二了,降临派认为它是朝着地球来的;原创 2025-10-26 10:53:07 · 838 阅读 · 0 评论 -
【模型训练篇】VeRL的二次开发(魔改)
前几篇文章分别介绍了VeRL的理论基础与基本使用,作为开源基建,不仅要掌握其用法,更要能够根据需求进行定制化二次开发,今天结合了其他大佬的思路,简单介绍如何下魔改VeRL;原创 2025-10-15 07:00:00 · 965 阅读 · 0 评论 -
【模型训练篇】VeRL的使用 - Agentic RL(智能体范式RL)
前三篇文章分别介绍了VeRL的分布式基础、底层原理和使用VeRL实现“对齐”范式RL,临近十一假期,抽时间赶出第四篇VeRL的学习笔记,今天介绍使用VeRL实现Agentic RL。原创 2025-09-26 08:00:00 · 1461 阅读 · 0 评论 -
【模型训练篇】VeRL的使用 - RL(PPO)与源码
继续学习字节家的VeRL,今天来看看VeRL的RL,是VeRL系列的第三篇文章(话说近期好多大事儿,我司发布了Longcat、韩立结婴、阿里周五发布了QWen-Next都是好东西啊,学不过来了damn)前两篇文章分别介绍了VeRL的分布式基础和其底层原理,下面就以RL的PPO为例,同时结合源码,看看具体的使用。原创 2025-09-14 07:46:48 · 907 阅读 · 0 评论 -
【模型训练篇】VeRL核心思想 - 论文HybridFlow
继续学习字节家的VeRL,今天介绍的是VeRL的核心思想,论文,是VeRLVeRLRay。原创 2025-09-08 00:04:19 · 1121 阅读 · 0 评论 -
【模型训练篇】VeRL分布式基础 - 框架Ray
前两篇文章简单复习了训练框架和,接着学习一下字节家的VeRLRayVeRLVeRLVeRLAgentic RLVeRL下面先介绍一下VeRL等众多RL框架的分布式基础,Ray。原创 2025-08-31 08:34:24 · 1377 阅读 · 0 评论 -
【模型训练篇】抱脸虫 - TRL
上篇文章提到过“模型训练篇”会重点学习字节家的Verl(阿里字节比我团在AI领域上确实走的更快一些,主要是它们搞车轮战啊,先有字节社区团购,再是京东淘宝外卖,跑题了…),但由于内容较多特别是它那片论文都没看完,需要更多时间细品,所以临时加更一期复习个稍微简单点的抱脸家的TRL。话说看到这种字体就想起 cyberpunk 夜之城了和 V震天了…原创 2025-08-21 07:00:00 · 1083 阅读 · 0 评论 -
[模型训练篇] 皮衣老黄 - Megatron
随着秋天第一杯奶茶活动的结束,也标志着夏站进入了稳定期,不确定后续还打不打以及怎么打,但短期内至少可以喘口气正常工作生活了… 我的LLM的复习计划也可以正常执行了…前几篇文章复习了数据并行策略以及VerlvLLMSGLang今天就先从皮衣家的Megatron开始。原创 2025-08-12 07:00:00 · 825 阅读 · 0 评论 -
【显存瘦身/算力加速】Flash Attention 2/3
上篇文章介绍了中的基础FA1,今天继续复习FA2和FA3。原创 2025-07-25 08:24:09 · 1030 阅读 · 0 评论 -
【显存瘦身/算力加速】Flash Attention 1
上篇文章中的一处留白,是关于SP在Megatron中的具体实现,但由于依赖,所以决定先把复习一下,由于内容较多,本期先复习基础中的基础。原创 2025-07-22 09:14:48 · 789 阅读 · 0 评论 -
[分布式并行策略] 序列并行 SP/CP
TP会显著增加节点间的通信成本,所以一般会限制在可以通过NVLink等高速访问的小型集群中(例如单机多卡)PP需要缓存激活值,为了缓解气泡问题,通常采用recompute重计算的方式,但会显著降低训练效率虽然可以使用DRAM缓解 GPU显存不足的问题,但速度很慢,不说on-chip的SRAM,连HBM也差一个量级sp 序列并行和(有选择性的重计算) 不在本期文章的讨论范围内,下面只是简单罗列一下Megatron支持的可选项,之后会有专门的Megatron:仅重计算显存占用高,但计算代价低的算子。原创 2025-07-18 07:00:00 · 1546 阅读 · 0 评论 -
[分布式并行] 流水线并行 PP(NaivePP/GPipe/F-then-B/PipeDream/1F1B)
前三篇文章分别介绍了EPDPTPEPDPTP接下来会尽量做到由浅入深的介绍MP中的PP,既流水线并行策略。原创 2025-06-29 16:04:54 · 1150 阅读 · 0 评论 -
[分布式并行策略] 张量并行 TP
前两篇文章分别介绍了EP和DP;相比于DP复杂的多个变种DDPFSDPZeRO1/2/3TP以及接下来会结合PyTorch代码,尽量做到由浅入深的介绍分布式并行策略MP中的TP。原创 2025-06-24 09:01:58 · 972 阅读 · 0 评论 -
[分布式并行策略] 数据并行 DP/DDP/FSDP/ZeRO
上篇文章介绍了分布式并行策略中的EP,简单的提到了其他几种并行策略,但碍于精力和篇幅限制决定将内容分几期,本期首先介绍DP,但并不是因为DP简单,相反DP的水也很深,例如:“DP到底同步的是什么数据?怎么同步的?“,“AllReduce/Ring-AllReduce是什么?”,“ZeRO1、2、3又都是什么?” 等各种问题,会结合PyTorch代码,尽量做到详细由浅入深。原创 2025-06-18 09:26:23 · 1179 阅读 · 0 评论 -
[论文品鉴] DeepSeek V3 最新论文 之 DeepEP
继续介绍DeepSeek上月发布的关于V3的论文之前几篇文章已经把V3这张架构图中的原理介绍的7788了,接下来介绍更底层的。原创 2025-06-10 09:22:45 · 1076 阅读 · 0 评论 -
[论文品鉴] DeepSeek V3 最新论文 之 FP8混合精度训练
继续介绍DeepSeek最近发布的关于V3的论文,且依然会结合年初的论文一起,同时也参考了17年混合精度训练的经典论文。原创 2025-05-28 09:28:32 · 1185 阅读 · 0 评论 -
[论文品鉴] DeepSeek V3 最新论文 之 MTP
继续介绍DeepSeek最近发布的关于V3的论文,且依然会结合年初的论文一起。下面DeepSeek-V3的这张架构图,前两篇文章已经分别介绍了的MLA和MoE,剩下最后的一块内容就是的MTP了。原创 2025-05-25 18:31:34 · 783 阅读 · 0 评论 -
[论文+源码] DeepSeek V3 最新论文 之 DeepSeekMoE
继续介绍DeepSeek上周三发布的关于V3的论文,今天要说的是。本文还会结合24年的论文与的 21年的论文。原创 2025-05-22 08:13:08 · 974 阅读 · 0 评论 -
[论文品鉴] DeepSeek V3 最新论文 之 MHA、MQA、GQA、MLA
DeepSeek本周三发了篇关于V3的论文,算是年初论文的姊妹篇;主要讲解了,DeepSeek团队如何通过软硬件相结合的方式,只需要2048块Nvidia H800就可以训练出v3。下图是V3的基础架构,要想做到透彻理解,所需的知识储备也挺多挺杂的,所以决定通过多篇文章来“品鉴”;今天介绍MLA,但又不能只说MLA,需要把整个“family 累A”(我超好尬)都介绍一下,也包括MHAMQAGQA。原创 2025-05-18 12:36:21 · 913 阅读 · 0 评论 -
[工欲善其事] LoRA
一直有关注公司在LLM领域的相关新闻,订阅的“抱脸虫”推送了一个feed,看了下是公司开源了一个语音交互模型(text to speech)但介绍里只有简单的一句 “从千问微调来的”,所以并不清楚都做了哪些工作,觉得公司在宣发方面还是太低调了,一如既往的闷头做事。正好近期在复习LLM相关知识,也没有计划太系统的复习路径,所以就看到什么复习什么,今天就说说LoRA。原创 2025-05-15 09:32:48 · 666 阅读 · 0 评论 -
[工欲善其事] 从Agent到MCP到A2A
近期在疯狂复习LLM领域的相关知识,想着还是通过输出的方式沉淀下来, 今天介绍的是应用层面的东西。原创 2025-05-13 08:25:50 · 768 阅读 · 0 评论 -
[白话文] 从百草园RLHF到三味书屋DPO
原创不易,特别是手打Latex简直要了命了,转载请注明出处。-- 鲁迅说的周五看到学城有部门同事分享DPO实践,写的非常好,但总感觉有点太“学术”了,知识分享更应该考虑如何让观众接受(毕竟不是发论文),特别是DPO公式推导部分简单的一笔带过很不过瘾,所以想尝试用比较通俗易懂的白话、偏感性的描述一下我的理解。原创 2025-05-10 11:07:26 · 792 阅读 · 0 评论 -
[论文品鉴] 1-bit LLM
今天看了一篇4月最新论文,觉得有点意思,决定写点东西沉淀一下。原创 2025-04-26 11:07:07 · 660 阅读 · 0 评论
分享