自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 进一步认识torch.compile的decomp对编译、执行与inplace操作的影响

在torch.compile模式下,当我们企图实现某个计算语义,可能存在两种选择:1、将该计算语义定义为一个算子,如"reuse_input_tensor_op(Tensor[] output_tensor_list, Tensor input_tensor, str tag, int[] ranks, int group_size) -> Tensor[]",此时该计算语义具备被定义好的输入、输出。

2025-01-26 17:29:25 474

原创 Async-TP

symmetric memory是对P2P内存的高层次封装,提供封装后的api接口,表达更灵活的跨机内存使用(允许直接使用指针)、屏蔽底层通信方式(CE,xCCL自由选择),更加易于被torch.compile集成。

2024-12-31 10:57:47 627

原创 pytorch debug版本编译

有方案解决依赖分析算子dispatch流程,因此需要编译debug版本,方便跟踪dispatch流程。

2024-09-18 21:10:29 242

原创 Position Embedding

Attention本质是计算输入序列中每个token与整个序列所有token之间的注意力权重。若不给token的embedding增加位置信息,那么无论token的位置如何变化,注意力的权重不会变化。这并不合理,因为理论上相对距离相近的token相关性会更新,注意力权重应当更大才合适。应此需要给embedding后的结果注入位置信息。

2024-09-18 21:07:54 366

原创 pybind11的GIL锁引入的bug

pybind

2024-09-04 15:08:09 826 2

原创 pytorch FSDP特性

FSDP全称(Fully Sharded Data Parallel),是pytorch官方提出大模型切分的解决方案。类似于ZeRo3级别的并行优化,同时混合cpu offload。

2024-08-20 15:29:51 1410 1

原创 深度学习优化器分析

文章目标:1、理解优化器的在训练中的作用2、以adam优化器为例分析,优化器功能的优劣3、对adam优化器展开内存分析4、分析adam优化器的pytorch实现。

2024-08-18 17:41:09 1943

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除