- 博客(1)
- 收藏
- 关注
原创 面试Python手撕MQA、GQA
(1)MQA(Multi Query Attention):只有一组 Key-Value 对,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,大大减少 Key 和 Value 矩阵的参数量。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。(2)GQA(Grouped Query Attention): Query 分为 G 组,每个组共享一个 Key 和 Value。
2025-03-17 21:08:06
152
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人