- 博客(4)
- 收藏
- 关注
原创 混合专家模型
就如同卷积神经网络利用不同的卷积核解读不同的信息、注意力机制用不同的头来解读不同的信息一样,门控机制中我们也可以有不同的门来用不同的方式筛选信息,模型中,常见的辅助损失(auxiliary loss)用于帮助训练过程中的专家选择更加平衡,防止某些专家被过度选择或其他专家很少被选中。我们把其中一个线性层看作携带信息的层,把另一个线性层看作“门控机制”,以此来压缩数据的通路、逼迫模型筛选出更精准、更重要的信息。最后的辅助损失是所有专家的分配概率和使用频率乘积的加权求和,用参数 α 来缩放损失。
2024-11-04 16:37:51
1941
原创 混合专家模型前传-------SwiGLU(Switch-Gated Linear Unit)门控线性单元激活函数
经典前馈神经网络:output = Linear2(ReLU(Linear1(x)))llama中的前馈神经网络:output = Linear2(Linear3(x)是一种新型的激活函数,由在论文中提出。它被用在如和其他大型 Transformer 模型中。SwiGLU 的设计核心是基于,它通过引入两个线性路径的输出,并结合逐元素乘法,实现了对信息的动态控制。
2024-11-03 21:16:58
2144
1
原创 旋转位置编码
因为想要捕捉相对位置关系,语义应该是和相对位置有关,而不是绝对位置。也就是在长文本中的某个词应该和它附近词更相关,离它较远的词关系没那么大。
2024-10-31 00:10:26
668
原创 多头注意力机制代码实现遇到的一些问题
我在尝试实现多头注意力机制代码时,在网上发现了俩种对多头的解释,一种是(假设有8头)生成8份不同的Wq,Wk,Wv ,x与他们相乘后就有8份不同Q,K,V。再进过softmax,得到Z0,Z2,.....,Z7,把这些Z拼接起来变成一个大矩阵,再乘以Wo,把Z投影到原来维度。但是我在网上找多头注意力的代码时,发现在生成权重矩阵W时,并没有生成8份W,而是只生成了1份W。这里的Q实际就是8份,只不过合并成了一个矩阵,这样可以让在计算量不减的情况下,运行速度跟1个头的运行速度接近。
2024-10-30 00:28:46
375
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅