Ai
文章平均质量分 89
Ai基本原理、推理优化
alucky_guy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MLA计算方式详解
数目的增加,需求的缓存量就越来越大,另一方面,网络层数的增加,也会导致需求的KV Cache容量增大(详情可见https://blog.youkuaiyun.com/alucky_guy/article/details/145909515?在**Multi-head Attention(MHA)**中,KV Cache需要的内存容量会随着序列长度的增大变得非常大,显存需求较高,需要寻找合适的方式来改善。②在推理时,由于所有的权重参数都已经确定,将式(1)、(10-11)代入(7), (8)会发现,实际上。原创 2025-02-27 20:20:09 · 1075 阅读 · 0 评论 -
KV Cache的收益与牺牲
decoder layers 数目为。使用量达到峰值,此时对应的输入序列长度为。 假设输入序列的长度为。产生时,此时每一层的。原创 2025-02-27 17:27:47 · 1031 阅读 · 0 评论
分享