自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

罗西的思考

一手伸向技术,一手伸向生活

  • 博客(364)
  • 资源 (1)
  • 收藏
  • 关注

原创 探秘Transformer系列之文章列表 --- 更新至第 29 篇

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-23 00:16:06 426

原创 新书出版:《分布式机器学习——系统、工程与实战》

当然,很多时候我们只有源码,那么就只能从源码中根据细节来探寻,重建论文作者的思路,提炼其精华,争取和作者达到一个跨越空间和时间的震荡和共鸣。其实我也没有很好的学习方法,可能因为我比较喜欢钻研技术,如果某一个技术点没有想明白,我就会围绕这个点进行深入挖掘,而往往为了弄明白一个知识点,就会研究其他相关知识点,这样从一个点很容易延申到一条线,进而扩展到一个面,最后形成一张网,就构建了自己的一个小小的知识体系。

2023-07-21 23:56:05 596 1

原创 探秘Transformer系列之(36)--- 大模型量化方案

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-06-08 20:14:54 1142

原创 探秘Transformer系列之(35)--- 大模型量化基础

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-06-02 20:24:23 684

原创 探秘Transformer系列之(34)--- 量化基础

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-05-24 14:49:49 808

原创 探秘Transformer系列之(33)--- DeepSeek MTP

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-05-17 10:00:11 1013

原创 探秘Transformer系列之(32)--- Lookahead Decoding

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-05-10 10:04:49 1037

原创 探秘Transformer系列之(31)--- Medusa

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-28 20:45:39 1096

原创 探秘Transformer系列之(30)--- 投机解码

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-23 19:58:58 672

原创 探秘Transformer系列之(29)--- DeepSeek MoE

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-20 10:10:56 1039

原创 探秘Transformer系列之(28)--- DeepSeek MLA(下)

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-17 20:36:58 912

原创 探秘Transformer系列之(28)--- DeepSeek MLA(上)

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-17 20:07:12 1176

原创 探秘Transformer系列之(27)--- MQA & GQA

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-14 20:08:16 870

原创 探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-12 20:40:51 958

原创 探秘Transformer系列之(25)--- KV Cache优化之处理长文本序列

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-10 20:19:32 993

原创 探秘Transformer系列之(24)--- KV Cache优化

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-08 20:32:34 745

原创 探秘Transformer系列之(23)--- 长度外推

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-05 10:07:03 769

原创 探秘Transformer系列之(22)--- LoRA

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-03 19:50:32 717

原创 探秘Transformer系列之(21)--- MoE

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-31 21:00:52 979

原创 探秘Transformer系列之(20)--- KV Cache

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-30 10:01:34 806

原创 探秘Transformer系列之(19)----FlashAttention V2 及升级版本

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-28 20:08:40 1150

原创 探秘Transformer系列之(18)--- FlashAttention

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-25 19:56:13 752

原创 探秘Transformer系列之(17)--- RoPE(下)

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-23 13:39:58 1044

原创 探秘Transformer系列之(17)--- RoPE(上)

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-23 13:35:29 759

原创 探秘Transformer系列之(16)--- 资源占用

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-21 19:58:43 859

原创 探秘Transformer系列之(15)--- 采样和输出

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-18 19:40:57 815

原创 探秘Transformer系列之(14)--- 残差网络和归一化

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-16 14:27:23 1089

原创 探秘Transformer系列之(13)--- Feed-Forward Networks

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-14 19:45:17 995 1

原创 探秘Transformer系列之(12)--- 多头自注意力

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-11 19:20:45 856

原创 探秘Transformer系列之(11)--- 掩码

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-08 10:20:00 946

原创 探秘Transformer系列之(10)--- 自注意力

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-05 20:39:48 726

原创 探秘Transformer系列之(9)--- 位置编码分类

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-03 20:54:03 1127 4

原创 探秘Transformer系列之(8)--- 位置编码

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-01 14:34:28 767

原创 探秘Transformer系列之(7)--- embedding

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-27 20:33:55 1172

原创 探秘Transformer系列之(6)--- token

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-24 20:04:46 965

原创 探秘Transformer系列之(5)--- 训练&推理

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-22 09:56:04 663

原创 探秘Transformer系列之(4)--- 编码器 & 解码器

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-20 20:45:34 1012

原创 探秘Transformer系列之(3)---数据处理

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-18 21:07:08 727

原创 探秘Transformer系列之(2)---总体架构

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-15 09:40:50 1015

原创 探秘Transformer系列之(1):注意力机制

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-09 11:28:20 1090

Word2vec-OpenSourceReading-master.zip

zhiyong大侠针对word2vec c版本代码所做的源码分析,非常细致,强烈推荐。 如果能够结合其博客阅读,更加理想。

2020-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除