大模型
文章平均质量分 96
lanlalala
无
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FlashAttention论文精读
笔者冒泡:是一整篇论文,果然比论文的一部分(比如位置编码、MLA)更难写文中算法已集成到pytorch,很通用,了解其原理以便进行二次开发,是极好的笔者认为阅读论文,可以从图、表、伪代码等入手;笔者准备在这篇解读中,学习阅读伪代码的方法含义:Fast and Memory-Efficient Exact Attention with IO-Awareness。原创 2025-10-23 11:17:50 · 841 阅读 · 0 评论 -
DeepSeek注意力机制解析:从MHA到MLA的KV缓存优化之路(仅需1/15的缓存、性能略高!!)
提高推理速度常见的注意力机制初版:多头注意力(MHA),KV缓存限制推理效率改进版:多查询注意力(MQA)、分组查询注意力(GQA):KV缓存少,损失信息导致性能差多头潜注意力(MLA):KV缓存少,因压缩投影 性能好于MHA图1. 四种注意力机制的原理图表1. 四种注意力机制的性能。原创 2025-10-19 16:13:29 · 278 阅读 · 0 评论 -
transformer(attention is all you need)文章阅读+重点代码理解
2025年开始,准备学习大模型相关的东西,所以从基础知识transformer开始补起。文章思路如下:以论文顺序讲解参考我学习的视频的部分简写了,详情见参考文献(链接)在必要的部分穿插了源码讲解目的:transformer是2017年由Google提出的,用于序列转导任务的模型(例如文本生成,翻译),以解决之前的基于RNN模型做此任务的问题(输入输出层必须等长、遗忘、只能串行运行)借鉴的研究FFN(前馈神经网络 Feedforward Neural Network)优点:可学习参数多。原创 2025-09-10 08:18:14 · 808 阅读 · 0 评论 -
位置编码(正余弦VS旋转矩阵)
2。原创 2025-10-08 16:18:21 · 989 阅读 · 0 评论
分享