
网络模块的学习
文章平均质量分 60
m0_67708072
这个作者很懒,什么都没留下…
展开
-
GQA (group query attention)
group query attention1.group有几组2.每个group对应几个head3.q以head为单位 k,v以group为单位 每个head/group特征维度都是head_dim原创 2024-09-08 21:40:28 · 815 阅读 · 0 评论 -
Code-带掩码的多头自注意力
带掩码的多头自注意力的简单代码实现原创 2024-09-08 00:19:42 · 193 阅读 · 0 评论 -
MoE 混合专家模型
MoE混合专家模型做了特征增广;门控机制保证了特征增广的同时模型不会过拟合。大模型中会使用到MoE技术。原创 2024-09-07 22:02:53 · 604 阅读 · 0 评论 -
dropout训练阶段和测试阶段
原理:训练阶段dropout启动。在前向传播过程,dropout模块对于输入的每个数,都会以概率p将该数置0,如果该数被置0则输出0,如果该数未被置0则把该数乘上1−p1作为输出。原创 2024-05-11 01:06:03 · 1203 阅读 · 0 评论 -
VQ-VAE
VQ-VAE:1. 用于压缩编码,编码出离散隐向量(有用的表征)2. 先验分布不再固定,可学习,离散的均匀分布。不像VAE中,先验分布是一个标准的高斯分布。3. 避免后验坍塌,即输入任意隐变量解码器输出都一样。原创 2023-12-16 19:25:38 · 256 阅读 · 0 评论 -
插值上采样+普通卷积
上采样通常有两种方式:一种是插值;一种是转置卷积,即利用深度学习让神经网络学习参数。本文给出了最近邻插值+卷积的代码实现。介绍了转置卷积存在的不足:棋盘效应原创 2023-11-19 04:19:40 · 175 阅读 · 0 评论