shengxiaoyang6-优快云博客

原创进一步认识torch.compile的decomp对编译、执行与inplace操作的影响

在torch.compile模式下，当我们企图实现某个计算语义，可能存在两种选择：1、将该计算语义定义为一个算子，如"reuse_input_tensor_op(Tensor[] output_tensor_list, Tensor input_tensor, str tag, int[] ranks, int group_size) -> Tensor[]"，此时该计算语义具备被定义好的输入、输出。

2025-01-26 17:29:25 474

原创 Async-TP

symmetric memory是对P2P内存的高层次封装，提供封装后的api接口，表达更灵活的跨机内存使用（允许直接使用指针）、屏蔽底层通信方式（CE，xCCL自由选择），更加易于被torch.compile集成。

2024-12-31 10:57:47 627

原创 pytorch debug版本编译

有方案解决依赖分析算子dispatch流程，因此需要编译debug版本，方便跟踪dispatch流程。

2024-09-18 21:10:29 242

原创 Position Embedding

Attention本质是计算输入序列中每个token与整个序列所有token之间的注意力权重。若不给token的embedding增加位置信息，那么无论token的位置如何变化，注意力的权重不会变化。这并不合理，因为理论上相对距离相近的token相关性会更新，注意力权重应当更大才合适。应此需要给embedding后的结果注入位置信息。

2024-09-18 21:07:54 366

原创 pybind11的GIL锁引入的bug

pybind

2024-09-04 15:08:09 826 2

原创 pytorch FSDP特性

FSDP全称（Fully Sharded Data Parallel），是pytorch官方提出大模型切分的解决方案。类似于ZeRo3级别的并行优化，同时混合cpu offload。

2024-08-20 15:29:51 1410 1

原创深度学习优化器分析

文章目标：1、理解优化器的在训练中的作用2、以adam优化器为例分析，优化器功能的优劣3、对adam优化器展开内存分析4、分析adam优化器的pytorch实现。

2024-08-18 17:41:09 1943

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人