- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 FlashAttention论文精读
笔者冒泡:是一整篇论文,果然比论文的一部分(比如位置编码、MLA)更难写文中算法已集成到pytorch,很通用,了解其原理以便进行二次开发,是极好的笔者认为阅读论文,可以从图、表、伪代码等入手;笔者准备在这篇解读中,学习阅读伪代码的方法含义:Fast and Memory-Efficient Exact Attention with IO-Awareness。
2025-10-23 11:17:50
838
原创 DeepSeek注意力机制解析:从MHA到MLA的KV缓存优化之路(仅需1/15的缓存、性能略高!!)
提高推理速度常见的注意力机制初版:多头注意力(MHA),KV缓存限制推理效率改进版:多查询注意力(MQA)、分组查询注意力(GQA):KV缓存少,损失信息导致性能差多头潜注意力(MLA):KV缓存少,因压缩投影 性能好于MHA图1. 四种注意力机制的原理图表1. 四种注意力机制的性能。
2025-10-19 16:13:29
275
原创 python八股
不修改原函数代码的情况下,为函数动态添加新功能目的:开闭原则(扩展开放,对修改封闭)常见应用场景:权限验证(登录检查)性能监控(函数执行时间统计)日志记录。。。。原理:函数是一等对象 - 可以当参数传递和返回闭包 - 内层函数能记住外层作用域语法糖@ - 简化调用方式。
2025-10-05 21:30:48
216
1
原创 C++八股
优点:让调用者只依赖抽象接口,不依赖具体实现调用者只需要面对基类编程,无需区分具体的派生类新增派生类时,调用者代码完全不用修改实现开闭原则对扩展开放,对修改关闭缺点:性能开销: 每次调用需要额外的指针寻址操作(查vTable)空间开销: 每个对象需要额外存储一个vPtr,每个类需要一份vTable。
2025-10-05 21:02:34
271
1
原创 transformer(attention is all you need)文章阅读+重点代码理解
2025年开始,准备学习大模型相关的东西,所以从基础知识transformer开始补起。文章思路如下:以论文顺序讲解参考我学习的视频的部分简写了,详情见参考文献(链接)在必要的部分穿插了源码讲解目的:transformer是2017年由Google提出的,用于序列转导任务的模型(例如文本生成,翻译),以解决之前的基于RNN模型做此任务的问题(输入输出层必须等长、遗忘、只能串行运行)借鉴的研究FFN(前馈神经网络 Feedforward Neural Network)优点:可学习参数多。
2025-09-10 08:18:14
805
1
cv2.fisheye.stereoCalibrate报错
2024-06-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅