这篇主要是大模型推理加速方向的分享
我会在每个目录下分享自己的学习过程以及实现。
欢迎持续关注
显存优化
KVcache:
PageAttention:
Flash Attention:
通透理解FlashAttention(含其2代和第3代):全面降低显存读写、加快计算速度-优快云博客
分布式优化
计算优化
算法优化
量化
参考:
这篇主要是大模型推理加速方向的分享
我会在每个目录下分享自己的学习过程以及实现。
欢迎持续关注
通透理解FlashAttention(含其2代和第3代):全面降低显存读写、加快计算速度-优快云博客
参考: