
Transformer
文章平均质量分 83
用来分享Transformer相关的知识与内容
讨厌编程但喜欢LLM的学院派
这个作者很懒,什么都没留下…
展开
-
并行优化策略
•。原创 2024-11-21 20:49:53 · 926 阅读 · 0 评论 -
一文搞懂SGD,Mometum,RMSProp,Adam,Adamw优化器
会累积之前梯度的更新方向,当前更新不只依赖当前的梯度,还受到过去更新方向的影响。2、某些梯度分量的值比另外一些分量的值要大的多,导致个别分量主导了梯度的更新方向,而期望的梯度更新方向却行进的非常缓慢.1、每一轮迭代使用的训练数据一般是小批量的,没有使用全部的训练数据,因此更新方向会发生锯齿状甚至随机震荡状;就会使得对最远的参数影响逐渐衰减 ,可以有效跟踪趋势,同时减弱数据中的随机波动影响。: 累积的动量值(类似于过去梯度的指数加权平均)。:累积的平方值大,学习率变小,从而减少更新幅度。原创 2024-11-20 20:05:22 · 959 阅读 · 0 评论 -
KVcache进阶
上篇文章讲了如KVcache的原理,这篇文章讲解一下KVcache的缓存大小控制KVCache存在的主要问题:KVcache就是一种用内存来换取计算量的方法,但是如果有一个长的token序列,KVcache的缓存太大如何解决??原创 2024-11-13 17:48:20 · 1381 阅读 · 0 评论 -
Transformer原理
基础知识不赘述了贴2篇精选文章。原创 2024-11-09 22:07:34 · 209 阅读 · 0 评论 -
GPU工作原理
学习过程中 有很多地方会使用到GPU来进行运算,如训练网络等。了解GPU的工作原理是非常有必要并且很有价值。原创 2024-11-08 12:00:00 · 1053 阅读 · 0 评论 -
详解矩阵乘优化方法
矩阵乘法在深度学习中应用十分广泛,记录一下常见的矩阵乘法。原创 2024-11-07 16:28:09 · 1058 阅读 · 0 评论 -
常见的归一化层 小白速进
通俗的讲一下各种常见归一化层以及Transformer中为什么是layer norm层。如果你不是专门研究算法的,而是想学习如何使用或者为什么使用norm 可以不需要去关注公式本身,而去注重理解原理以及应用场景。每个归一化层我都会用两个例子来说明它的原理,建议小白先看举例再看每个norm原理。原创 2024-11-02 13:48:15 · 1127 阅读 · 0 评论 -
Transformer中为什么是layer norm不是batch norm
讨论一下为什么transformer中用layer norm前序知识:常见的归一化层的工作原理之前已经讲过各个常见的归一化层了,不了解的可以去看看这篇文章。首先咱们得了解在NLP中,如果输入的几个句子不是等长的,需要使用Padding技术或者Truncation技术来使句子等长。因此对于短文本来说,为了对齐长句子,剩下的位置会被填充零向量,即 [0, 0, 0, ..., 0]。它对应的vector可能是这样用“0值”padding后的结果因此对于文本来说,这些embedding是没有意义的。原创 2024-11-02 15:43:35 · 1186 阅读 · 0 评论 -
CV中使用SelfAttention
今天分享一下CV中SelfAttenion的发展历程吧众所周知,Transformer架构在NLP领域大放异彩,CV领域也想沾沾这份喜气,于是很多人就在想如何使用Transformer。其中最关键的技术就是SelfAttention了,因此图片中如何使用SelfAttention成为了研究的重点内容。原创 2024-11-01 23:47:55 · 754 阅读 · 0 评论