
015_深度学习
文章平均质量分 97
015_深度学习
罗西的思考
微信公众号:罗西的思考
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
探秘Transformer系列之(36)--- 大模型量化方案
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-06-08 20:14:54 · 1123 阅读 · 0 评论 -
探秘Transformer系列之(35)--- 大模型量化基础
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-06-02 20:24:23 · 678 阅读 · 0 评论 -
探秘Transformer系列之(34)--- 量化基础
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-05-24 14:49:49 · 806 阅读 · 0 评论 -
探秘Transformer系列之(33)--- DeepSeek MTP
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-05-17 10:00:11 · 1011 阅读 · 0 评论 -
探秘Transformer系列之(32)--- Lookahead Decoding
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-05-10 10:04:49 · 1037 阅读 · 0 评论 -
探秘Transformer系列之(31)--- Medusa
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-28 20:45:39 · 1091 阅读 · 0 评论 -
探秘Transformer系列之(30)--- 投机解码
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-23 19:58:58 · 671 阅读 · 0 评论 -
探秘Transformer系列之(29)--- DeepSeek MoE
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-20 10:10:56 · 1035 阅读 · 0 评论 -
探秘Transformer系列之(28)--- DeepSeek MLA(下)
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-17 20:36:58 · 902 阅读 · 0 评论 -
探秘Transformer系列之(28)--- DeepSeek MLA(上)
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-17 20:07:12 · 1173 阅读 · 0 评论 -
探秘Transformer系列之(27)--- MQA & GQA
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-14 20:08:16 · 869 阅读 · 0 评论 -
探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-12 20:40:51 · 950 阅读 · 0 评论 -
探秘Transformer系列之(25)--- KV Cache优化之处理长文本序列
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-10 20:19:32 · 991 阅读 · 0 评论 -
探秘Transformer系列之(24)--- KV Cache优化
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-08 20:32:34 · 744 阅读 · 0 评论 -
探秘Transformer系列之(23)--- 长度外推
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-05 10:07:03 · 768 阅读 · 0 评论 -
探秘Transformer系列之(22)--- LoRA
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-04-03 19:50:32 · 715 阅读 · 0 评论 -
探秘Transformer系列之(21)--- MoE
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-31 21:00:52 · 978 阅读 · 0 评论 -
探秘Transformer系列之(20)--- KV Cache
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-30 10:01:34 · 805 阅读 · 0 评论 -
探秘Transformer系列之(19)----FlashAttention V2 及升级版本
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-28 20:08:40 · 1150 阅读 · 0 评论 -
探秘Transformer系列之(18)--- FlashAttention
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-25 19:56:13 · 749 阅读 · 0 评论 -
探秘Transformer系列之(17)--- RoPE(下)
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-23 13:39:58 · 1042 阅读 · 0 评论 -
探秘Transformer系列之(17)--- RoPE(上)
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-23 13:35:29 · 741 阅读 · 0 评论 -
探秘Transformer系列之文章列表 --- 更新至第 29 篇
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-23 00:16:06 · 423 阅读 · 0 评论 -
探秘Transformer系列之(16)--- 资源占用
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-21 19:58:43 · 858 阅读 · 0 评论 -
探秘Transformer系列之(15)--- 采样和输出
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-18 19:40:57 · 815 阅读 · 0 评论 -
探秘Transformer系列之(14)--- 残差网络和归一化
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-16 14:27:23 · 1088 阅读 · 0 评论 -
探秘Transformer系列之(13)--- Feed-Forward Networks
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-14 19:45:17 · 988 阅读 · 1 评论 -
探秘Transformer系列之(12)--- 多头自注意力
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-11 19:20:45 · 850 阅读 · 0 评论 -
探秘Transformer系列之(11)--- 掩码
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-08 10:20:00 · 943 阅读 · 0 评论 -
探秘Transformer系列之(10)--- 自注意力
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-05 20:39:48 · 726 阅读 · 0 评论 -
探秘Transformer系列之(9)--- 位置编码分类
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-03 20:54:03 · 1121 阅读 · 4 评论 -
探秘Transformer系列之(8)--- 位置编码
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-03-01 14:34:28 · 765 阅读 · 0 评论 -
探秘Transformer系列之(7)--- embedding
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-02-27 20:33:55 · 1172 阅读 · 0 评论 -
探秘Transformer系列之(6)--- token
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-02-24 20:04:46 · 961 阅读 · 0 评论 -
探秘Transformer系列之(5)--- 训练&推理
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-02-22 09:56:04 · 661 阅读 · 0 评论 -
探秘Transformer系列之(4)--- 编码器 & 解码器
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-02-20 20:45:34 · 1008 阅读 · 0 评论 -
探秘Transformer系列之(3)---数据处理
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。原创 2025-02-18 21:07:08 · 726 阅读 · 0 评论 -
[源码解析] TensorFlow 分布式之 ClusterCoordinator
本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。原创 2022-05-21 11:48:57 · 667 阅读 · 0 评论 -
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2
对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域我们在前文已经研究过,运行在 MirroredStrategy 里面也介绍,所以本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。原创 2022-05-14 08:12:08 · 680 阅读 · 0 评论 -
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V1
本文我们看看 ParameterServerStrategy,就是第一版代码。研究这个是因为目前工业界还有很多公司在使用,而且其内部机制也比较清晰易懂,值得我们分析。原创 2022-05-08 09:16:52 · 558 阅读 · 0 评论