
经典网络层
文章平均质量分 87
深度学习 经典网络层
小鹏AI
深度学习算法工程师,主攻深度学习模型优化部署,辅攻图形图像算法调优。
软件设计师、英伟达Jeston Nano专家认证。
展开
-
深度学习 残差卷积和反残差卷积的认识与代码实现
残差卷积我们先尝试的实现残差卷积:首先,从图中我们不难看出,图中有五种层级的卷积每种层级之间略微的有些不同,比如18-layer、34-layer中每一个conv中仅仅用了两种卷积相比较而言,50-layer、101-layer、152-layer中每一个conv中使用了三种卷积所以我们首先要定义一个setting字典,来区分它们之间的不同RESNET18 = "RESNET18"RESNET34 = "RESNET34"RESNET50 = "RESNET50"RESNET101 =原创 2020-07-14 17:00:12 · 2456 阅读 · 0 评论 -
深度学习 结合论文深度了解BN操作的实质
BN操作主要是用来解决 internal covariate shift现象。那么什么是internal covariate shift现象呢?Google在《Batch Normalization:Accelerating Deep Network Tradining by Reducing Internal Covariate shift》论文中曾提到过:深度神经网络涉及到多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化, 通过层层叠加,高层的输入分布变化会非常的剧烈,这就使得高层需原创 2020-08-09 17:32:17 · 767 阅读 · 0 评论 -
深度学习 如何简单的理解concat操作
import numpy as npa = np.random.randint(1, 10, [3, 2, 3, 4])c = np.concatenate(a, axis=1)print(np.shape(a), "axis=1", np.shape(c))d = np.concatenate(a, axis=0)print(np.shape(a), "axis=0", np.shape(d))e = np.concatenate(a, axis=2)print(np.shape(a)原创 2020-07-28 09:29:32 · 7618 阅读 · 3 评论 -
BatchNorm与LayerNorm的比较
直接把VIT中的LN替换成BN,容易训练不收敛,原因是FFN没有被Normalized,所以还要在FFN block里面的两层之间插一个BN层。BN和LN在实现上的区别仅仅是:BN是对batch的维度去做归一化,也就是针对不同样本的同一特征做操作。测试集可能出现比训练集更长的句子,所以对于后面位置的step,是没有训练的统计量使用的。由于不同句子的同一位置的分布大概率是不同的,所以应用BN来约束是没意义的。BN是对batch的维度去做归一化,也就是针对不同样本的同一特征做操作。原创 2023-02-23 10:12:08 · 623 阅读 · 0 评论 -
深度学习 动量公式推导(moment动量)
a1,a2,a3,a4,......ai,......ana_1, a_2, a_3, a_4, ... ... a_i, ... ... a_na1,a2,a3,a4,......ai,......ana1′a'_1a1′ = a1+a22\frac{a1+ a2}{2}2a1+a2a2′a'_2a2′ = a1′∗2+a33\frac{a'_1 * 2 + a_3}{3}3a1′∗2+a3an′a'_nan′ = ai−1′∗p+aip+1\frac{a'_{i-1}*原创 2020-10-14 11:27:54 · 1985 阅读 · 0 评论