
【入门学习DL】
一些DL的学习笔记和心得
PL_涵
路漫漫其修远兮,吾将上下而求索。在校大学生。更新自己学习知识的过程与心得。由于本人能力较低,如有不当之处,还请多多包容:)
展开
-
DenseNet(稠密卷积神经网络)
在每一个稠密卷积块中,它的输入是前面所有层的输出进行合并之后的结果,它的输出同样会作用到后面的所有层。这样一来,信息或者梯度的流通就非常通畅了,一方面使得网络更容易训练,另一方面也使得网络达到非常好的特征提取的作用。而DenseNet则不是,它在ResNet的short-path的基础上提出了一种稠密卷积的思想,进一步缓解了梯度消失的问题,加强了特征提取、特征重用的效果,并且显著减少了参数量,同时最终模型的尺寸也比较小。在ResNet之后,骨干网络的结构有两种趋势,一种是更深,另一种是更宽,而作者则是。..原创 2022-07-15 16:17:34 · 611 阅读 · 0 评论 -
残差网络(ResNet)
假设第 层,我们想要的映射为 ,但此时我们不选择直接优化 ,而是构造,选择间接去优化,其中表达式为:最后在网络第 输入前,将 加上 即可得到 ,也就是原来想要的输出,也是第 层的输入,其表达式为:式子中的,被称为两层网络之间的残差 那么为什么残差网络可以解决网络退化的问题?现在,假设任意更深层的输入为 ,任意浅层的输入为 ,那么根据上述的规律,可以写出二者之间的递推关系式:也就是说任意深层的输入,可以写成任意浅层的输入加上两层网络之间的残差和那么,与普通的神经网络相比,在前向传播的过程中,残差网原创 2022-07-08 16:05:56 · 447 阅读 · 0 评论 -
卷积神经网络(CNN)
一、卷积神经网络的层级结构如下图所示: 上图中CNN要做的事情是:给定一张图片,不知道是什么东西,也不知道是什么种类的东西,现在需要模型判断这张图片里具体是一个什么东西,即输出一个结果比如上图就应输出,是车,品牌是特斯拉,或者一些其他你想要获取的特征信息最左边是数据输入层:对数据做一些处理,比如,去均值(把输入数据各个维度都中心化为0,避免数据过多偏差,影响训练效果)、归一化(把所有的数据都归一到同样的范围)、PCA/白化等等( CNN只对训练集做“去均值” )中间是Conv:卷积计算层,线性乘积求和Re原创 2022-07-11 10:01:39 · 681 阅读 · 0 评论 -
生成对抗网络(GAN)
生成对抗网络可分为三个部分--生成、判别以及对抗举一个例子,我们把生成器比作新手画家,判别器比作新手鉴赏家,当新手画家有灵感时,他会根据自己的灵感画出来一副画,我们给出新手画家的作品和大师的名作,让新手鉴赏家来鉴赏哪一幅是大师的名作,但我们通过贴标签等方式,告诉新手鉴赏家,哪一幅是大师的作品,新手鉴赏家鉴赏完后告诉新手画家,应该怎么改进可以画的更像大师的作品,就这样反复进行,直到新手变成老手,老画家就可以出师啦具体来是,当给生成器一些随机数据时,它会根据随机数据按照我们的需求随机生成一些图片或文字等,然后我原创 2022-07-07 11:17:30 · 157 阅读 · 0 评论 -
注意力机制(Attention mechanism)
自注意力机制(self-attention)首先,其核心思想为:其中,Q为query, ,即查询、要查询的信息K为key, ,即索引、被查询的向量V为value, ,即值、查询到的内容dk代表k的维度,除以k的维度的平方根,使训练时的梯度保持稳定 Q,K,V都是输入x经过经过线性变换得到的,和它们分别相乘的三个矩阵W是通过学习得到的矩阵,使用这样的线性变换可以提高的模型的拟合能力举一个例子有一个渣男,他有 n 个备胎,他想要从自己的备胎里寻找最符合自己期望的,好分配注意力和管理时间用 Q 表示择偶标准,K原创 2022-07-08 17:11:40 · 1884 阅读 · 0 评论 -
什么是人工神经网络
什么是神经网络房价预测问题输入房屋信息x经过单个神经元后得到输出预测房价y,这里的神经元就是x到y的一种映射关系,即x到y的映射函数。ReLU函数--修正激活函数(修正,即使输出不小于0)神经网络由输入层、隐藏层(神经元组成的结构)以及输出层共同组成,最简单的神经网络即只有单个神经元,也就是上述的房价预测问题神经网络的特点在于,当实现网络之后,只是输入x,就能得到输出y,网络可以自己计算训练集中样本的数目以及所有的中间过程,当给予神经网络足够多的x和y的数据,即有足够的训练样本时,可以训练神经网络快速计算从原创 2022-07-06 16:59:27 · 266 阅读 · 0 评论 -
非局部神经网络(Non-Local)
其中,x是输入信号(图片,队列,视频,通常是特征),i是输出位置(在空间、时间或时空中)的索引,它的响应值是通过j枚举所有可能位置来计算的。理论上,该算法需要在整个图像范围内判断像素间的相似度,也就是说,每处理一个像素点时,都要计算它与图像中所有像素点间的相似度。这个技巧不会改变非局部的行为,只会使计算变得更稀疏,实现起来也很简单,只需要在上图的θ,g中加一个最大池化层即可。其中以y为中心的邻域窗口在搜索窗口中滑动,通过计算两个邻域窗口间的相似程度,为y赋以权值w(x,y)...原创 2022-07-17 17:16:57 · 2361 阅读 · 0 评论