
深度学习
文章平均质量分 84
不会绑马尾的女孩
这个作者很懒,什么都没留下…
展开
-
【读一读论文吧】BERT
沐神论文精读B站地址:https://www.bilibili.com/video/BV1PL411M7eQ/?spm_id_from=333.788paper:https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQBERT简化了NLP任务的训练,提升了NLP任务的性能。标体1. 标题BERT: Pre-training of Deep Bidirectional Transformers fo原创 2022-05-23 15:39:46 · 1605 阅读 · 1 评论 -
【论文精度】Transformer--Attention Is All You Need
Transformer开创了继MLP、CNN和RNN之后的第四大类模型摘要sequence transduction:序列转录,序列到序列的生成结论这篇文章介绍了transform模型,第一个仅仅使用注意力的序列模型。用multi-headed self-attention替换常用在encoder-decoder的结构循环层recurrent layers...原创 2022-05-20 16:28:06 · 1232 阅读 · 0 评论 -
Coordinate attention,SE,CBAM
1、SE因为普通卷积难以建模信道关系,SE考虑通道的相互依赖关系增强模型对信息通道的敏感性,同时全局平均池化可以帮助模型捕获全局信息。然而SE只考虑了内部通道信息而忽略了位置信息的重要性。输入X首先经过全局平均池化然后经过全连接层来捕获每个通道的重要性,再经过非线性层也就是使用ReLU激活函数来增加非线性因素,再经过全连接层来捕获每个通道的重要性。最后全连接层的输出用sigmoid归一化加权后和输入X通道乘法。2、CA(coordinate attention)主要分为两步,位置信息的原创 2022-05-03 10:54:09 · 1239 阅读 · 2 评论 -
激活函数-ReLU,Sigmoid,Leak ReLU,tanh
激活函数ReLUReLU函数会使一部分神经元的输出为0,这样就会造成网络的稀疏性,并且减少参数之间的依赖关系,缓解过拟合的发生。class Relu(): def __init__(self): #mask是由True/False组成的numpy数组 self.mask=None def forward(self,x): #mask将x<=0的地方保存为True,其他的都为False self.mask=(x<=0) out=x.copy() out[self.原创 2022-05-03 09:36:36 · 483 阅读 · 0 评论