自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_43527718的博客

博客等级

码龄7年

175
原创

954
点赞

1729
收藏

1154
粉丝

关注

私信

热门文章

分类专栏

最新评论

轮换对称性
F-S.: 谢谢你终于弄明白啦
总线、I/O总线、I/O接口
lliinnhhhan: 冲你这个实物图给你点了
线性表中的时间复杂度
自在: 尾插法的时间复杂度，如果维护了一个tail指针，那么尾插法的时间复杂度就是O(1)
FlashAttention原理：从原始Attention到FlashAttention
南叔先生: 您好，请教一下，为什么QK的结果要放回HBM，假如假如矩阵的维度是512*1024，那两个矩阵用fp16存储，也就需要20KB，加上结果，也就40KB，20MB来说足够了呀？
CMU 10-414/714: Deep Learning Systems --hw3
cyguo12345: 5.[CPU]矩阵乘里，可能是在__matmul__函数调用matmul_tiled前，将矩阵已经调整为float[M/TILE][N/TILE][TILE][TILE]的compact格式，每个TILE*TILE块的元素内存是连续的，所以在AlignedDot传参的时候，索引里都有 * TILE*TILE部分。(图里的详细列出i,j,k索引那里其实没看懂)

llm

关注

文章平均质量分 93

关注数：文章数：3 文章阅读量：5763 文章收藏量：79

作者: rebekk

这个作者很懒，什么都没留下…

展开