自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

罗西的思考

一手伸向技术,一手伸向生活

  • 博客(350)
  • 资源 (1)
  • 收藏
  • 关注

原创 探秘Transformer系列之文章列表 --- 更新至第 21 篇

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-23 00:16:06 351

原创 新书出版:《分布式机器学习——系统、工程与实战》

当然,很多时候我们只有源码,那么就只能从源码中根据细节来探寻,重建论文作者的思路,提炼其精华,争取和作者达到一个跨越空间和时间的震荡和共鸣。其实我也没有很好的学习方法,可能因为我比较喜欢钻研技术,如果某一个技术点没有想明白,我就会围绕这个点进行深入挖掘,而往往为了弄明白一个知识点,就会研究其他相关知识点,这样从一个点很容易延申到一条线,进而扩展到一个面,最后形成一张网,就构建了自己的一个小小的知识体系。

2023-07-21 23:56:05 570 1

原创 探秘Transformer系列之(23)--- 长度外推

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-05 10:07:03 477

原创 探秘Transformer系列之(22)--- LoRA

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-04-03 19:50:32 509

原创 探秘Transformer系列之(21)--- MoE

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-31 21:00:52 794

原创 探秘Transformer系列之(20)--- KV Cache

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-30 10:01:34 755

原创 探秘Transformer系列之(19)----FlashAttention V2 及升级版本

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-28 20:08:40 1070

原创 探秘Transformer系列之(18)--- FlashAttention

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-25 19:56:13 657

原创 探秘Transformer系列之(17)--- RoPE(下)

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-23 13:39:58 968

原创 探秘Transformer系列之(17)--- RoPE(上)

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-23 13:35:29 658

原创 探秘Transformer系列之(16)--- 资源占用

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-21 19:58:43 781

原创 探秘Transformer系列之(15)--- 采样和输出

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-18 19:40:57 746

原创 探秘Transformer系列之(14)--- 残差网络和归一化

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-16 14:27:23 1028

原创 探秘Transformer系列之(13)--- Feed-Forward Networks

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-14 19:45:17 912 1

原创 探秘Transformer系列之(12)--- 多头自注意力

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-11 19:20:45 800

原创 探秘Transformer系列之(11)--- 掩码

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-08 10:20:00 872

原创 探秘Transformer系列之(10)--- 自注意力

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-05 20:39:48 598

原创 探秘Transformer系列之(9)--- 位置编码分类

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-03 20:54:03 1041 1

原创 探秘Transformer系列之(8)--- 位置编码

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-03-01 14:34:28 690

原创 探秘Transformer系列之(7)--- embedding

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-27 20:33:55 1084

原创 探秘Transformer系列之(6)--- token

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-24 20:04:46 886

原创 探秘Transformer系列之(5)--- 训练&推理

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-22 09:56:04 599

原创 探秘Transformer系列之(4)--- 编码器 & 解码器

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-20 20:45:34 918

原创 探秘Transformer系列之(3)---数据处理

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-18 21:07:08 687

原创 探秘Transformer系列之(2)---总体架构

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-15 09:40:50 939

原创 探秘Transformer系列之(1):注意力机制

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。

2025-02-09 11:28:20 986

原创 [源码解析] TensorFlow 分布式之 ClusterCoordinator

本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

2022-05-21 11:48:57 609

原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域我们在前文已经研究过,运行在 MirroredStrategy 里面也介绍,所以本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。

2022-05-14 08:12:08 631

原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

本文我们看看 ParameterServerStrategy,就是第一版代码。研究这个是因为目前工业界还有很多公司在使用,而且其内部机制也比较清晰易懂,值得我们分析。

2022-05-08 09:16:52 520

原创 [源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量,本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是,MirroredStrategy 通过什么方式在远端设备节点上运行训练方法(如何分发计算),MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来?和 master,worker 这些概念怎么联系起来?

2022-04-26 08:05:14 463

原创 [源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。

2022-04-19 18:40:00 533

原创 [源码解析] TensorFlow 之 分布式变量

在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。

2022-04-14 17:48:47 600

原创 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

我们接下来介绍TensorFlow分布式Strategy的基础,本文会先看看Strategy的类体系和如何处理数据,下一篇看看如何处理变量。

2022-04-12 14:23:15 532

原创 [翻译] 使用 TensorFlow 进行分布式训练

本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练,借此进入Strategy世界。

2022-04-10 09:51:28 516

原创 [源码解析] TensorFlow 分布式环境(8) --- 通信机制

在 TF 分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所以我们本文来看看 TF 之中的数据交换机制 Rendezvous。

2022-04-06 15:55:49 531

原创 [源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,RunGraphAsync,本文我们就来看看 GrpcWorkerService 如何处理。

2022-04-01 16:51:42 2935

原创 [源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文会从 Client 开始,看看 Master 如何对计算图进行处理。

2022-03-29 16:36:03 421

原创 [源码解析] TensorFlow 分布式环境(5) --- Session

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一遍。

2022-03-28 19:50:49 426

原创 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。我们接下来介绍缓存机制。

2022-03-23 19:43:51 1696

原创 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本篇介绍 Worker(一系列相关概念) 的静态架构。

2022-03-21 19:32:33 2086

Word2vec-OpenSourceReading-master.zip

zhiyong大侠针对word2vec c版本代码所做的源码分析,非常细致,强烈推荐。 如果能够结合其博客阅读,更加理想。

2020-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除