- 博客(1)
- 收藏
- 关注
原创 DeepSeek-V2高性能推理优化笔记:MLA优化
另一方面,针对传统的MHA或GQA算子,在计算注意力的过程中,所有KV Cache中的数据读取后都仅参与一次或几次计算,导致该算子的MFU极低,并且由于每个request有自己的KV Cache,这一问题无法通过提高batch size的方式解决。这是因为,$W^{UK}$与$W^{UQ}$相乘后的结果可以视为$H$个大小为$1536 \times 512$的低秩(不超过128)矩阵,而$W^{UV}$与$W^O$相乘的结果可以视为$H$个大小为$5120 \times 512$的低秩矩阵。
2025-03-19 09:06:26
294
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人