深度学习二

转载:http://blog.youkuaiyun.com/zouxy09/article/details/8775488

目录:

一、概述

二、背景

三、人脑视觉机理

四、关于特征

       4.1、特征表示的粒度

       4.2、初级(浅层)特征表示

       4.3、结构性特征表示

       4.4、需要有多少个特征?

五、Deep Learning的基本思想

六、浅层学习(Shallow Learning)和深度学习(Deep Learning)

七、Deep learning与Neural Network

八、Deep learning训练过程

       8.1、传统神经网络的训练方法

       8.2、deep learning训练过程

九、Deep Learning的常用模型或者方法

       9.1、AutoEncoder自动编码器

       9.2、Sparse Coding稀疏编码

       9.3、Restricted Boltzmann Machine(RBM)限制波尔兹曼机

       9.4、Deep BeliefNetworks深信度网络

       9.5、Convolutional Neural Networks卷积神经网络

十、总结与展望

十一、参考文献和Deep Learning学习资源

 

 

接上

 

       因为我们要学习的是特征的表达,那么关于特征,或者说关于这个层级特征,我们需要了解地更深入点。所以在说Deep Learning之前,我们有必要再啰嗦下特征(呵呵,实际上是看到那么好的对特征的解释,不放在这里有点可惜,所以就塞到这了)。

 

四、关于特征

        特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。如果数据被很好的表达成了特征,通常线性模型就能达到满意的精度。那对于特征,我们需要考虑什么呢?

4.1、特征表示的粒度

        学习算法在一个什么粒度上的特征表示,才有能发挥作用?就一个图片来说,像素级的特征根本没有价值。例如下面的摩托车,从像素级别,根本得不到任何信息,其无法进行摩托车和非摩托车的区分。而如果特征是一个具有结构性(或者说有含义)的时候,比如是否具有车把手(handle),是否具有车轮(wheel),就很容易把摩托车和非摩托车区分,学习算法才能发挥作用。

 

 

 

4.2、初级(浅层)特征表示

        既然像素级的特征表示方法没有作用,那怎样的表示才有用呢?

        1995 年前后,Bruno Olshausen和 David Field 两位学者任职 Cornell University,他们试图同时用生理学和计算机的手段,双管齐下,研究视觉问题。

        他们收集了很多黑白风景照片,从这些照片中,提取出400个小碎片,每个照片碎片的尺寸均为 16x16 像素,不妨把这400个碎片标记为 S[i], i = 0,.. 399。接下来,再从这些黑白风景照片中,随机提取另一个碎片,尺寸也是 16x16 像素,不妨把这个碎片标记为 T。

        他们提出的问题是,如何从这400个碎片中,选取一组碎片,S[k], 通过叠加的办法,合成出一个新的碎片,而这个新的碎片,应当与随机选择的目标碎片 T,尽可能相似,同时,S[k] 的数量尽可能少。用数学的语言来描述,就是:

        Sum_k (a[k] * S[k]) --> T,     其中 a[k] 是在叠加碎片 S[k] 时的权重系数。

        为解决这个问题,Bruno Olshausen和 David Field 发明了一个算法,稀疏编码(Sparse Coding)。

        稀疏编码是一个重复迭代的过程,每次迭代分两步:

1)选择一组 S[k],然后调整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T。

2)固定住 a[k],在 400 个碎片中,选择其它更合适的碎片S’[k],替代原先的 S[k],使得Sum_k (a[k] * S’[k]) 最接近 T。

        经过几次迭代后,最佳的 S[k] 组合,被遴选出来了。令人惊奇的是,被选中的 S[k],基本上都是照片上不同物体的边缘线,这些线段形状相似,区别在于方向。

        Bruno Olshausen和 David Field 的算法结果,与 David Hubel 和Torsten Wiesel 的生理发现,不谋而合!

        也就是说,复杂图形,往往由一些基本结构组成。比如下图:一个图可以通过用64种正交的edges(可以理解成正交的基本结构)来线性表示。比如样例的x可以用1-64个edges中的三个按照0.8,0.3,0.5的权重调和而成。而其他基本edge没有贡献,因此均为0 。

 

        另外,大牛们还发现,不仅图像存在这个规律,声音也存在。他们从未标注的声音中发现了20种基本的声音结构,其余的声音可以由这20种基本结构合成。

 

 

 

4.3、结构性特征表示

        小块的图形可以由基本edge构成,更结构化,更复杂的,具有概念性的图形如何表示呢?这就需要更高层次的特征表示,比如V2,V4。因此V1看像素级是像素级。V2看V1是像素级,这个是层次递进的,高层表达由底层表达的组合而成。专业点说就是基basis。V1取提出的basis是边缘,然后V2层是V1层这些basis的组合,这时候V2区得到的又是高一层的basis。即上一层的basis组合的结果,上上层又是上一层的组合basis……(所以有大牛说Deep learning就是“搞基”,因为难听,所以美其名曰Deep learning或者Unsupervised Feature Learning)

 

        直观上说,就是找到make sense的小patch再将其进行combine,就得到了上一层的feature,递归地向上learning feature。

        在不同object上做training是,所得的edge basis 是非常相似的,但object parts和models 就会completely different了(那咱们分辨car或者face是不是容易多了):

 

        从文本来说,一个doc表示什么意思?我们描述一件事情,用什么来表示比较合适?用一个一个字嘛,我看不是,字就是像素级别了,起码应该是term,换句话说每个doc都由term构成,但这样表示概念的能力就够了嘛,可能也不够,需要再上一步,达到topic级,有了topic,再到doc就合理。但每个层次的数量差距很大,比如doc表示的概念->topic(千-万量级)->term(10万量级)->word(百万量级)。

        一个人在看一个doc的时候,眼睛看到的是word,由这些word在大脑里自动切词形成term,在按照概念组织的方式,先验的学习,得到topic,然后再进行高层次的learning。

 

4.4、需要有多少个特征?

       我们知道需要层次的特征构建,由浅入深,但每一层该有多少个特征呢?

任何一种方法,特征越多,给出的参考信息就越多,准确性会得到提升。但特征多意味着计算复杂,探索的空间大,可以用来训练的数据在每个特征上就会稀疏,都会带来各种问题,并不一定特征越多越好。

 

 

      

       好了,到了这一步,终于可以聊到Deep learning了。上面我们聊到为什么会有Deep learning(让机器自动学习良好的特征,而免去人工选取过程。还有参考人的分层视觉处理系统),我们得到一个结论就是Deep learning需要多层来获得更抽象的特征表达。那么多少层才合适呢?用什么架构来建模呢?怎么进行非监督训练呢?

 

下续

转载于:https://www.cnblogs.com/believe-in-me/p/6633198.html

<think>好的,用户想了解RCAB模块在图像超分辨率任务中的作用和原理。首先,我需要回忆一下RCAB的相关知识。RCAB全称是Residual Channel Attention Block,应该是在残差块的基础上加入了通道注意力机制。这通常用于提升超分辨率模型的性能。 记得残差块(Residual Block)在ResNet中被广泛使用,通过跳跃连接缓解梯度消失的问题,帮助训练更深的网络。而通道注意力机制,比如SENet中的Squeeze-and-Excitation模块,能够自动学习各个通道的重要性,增强有用的特征,抑制不重要的。RCAB可能结合了这两者。 接下来,需要确认RCAB的具体结构。根据常见的设计,RCAB可能包含多个卷积层,然后是通道注意力模块,最后通过残差连接相加。这样可以在提取特征的同时,动态调整各通道的权重,让网络更关注重要的信息。 在超分辨率任务中,RCAB的作用应该是增强高频细节的恢复,比如边缘和纹理,这对于提升图像清晰度至关重要。同时,通道注意力机制能有效利用通道间的依赖关系,优化特征表达,从而提升重建质量。 应用场景方面,RCAB可能被用于如EDSR、RCAN等超分辨率模型中。这些模型通常堆叠多个RCAB模块,通过深层的网络结构逐步恢复高分辨率图像。特别是在处理大倍数超分辨率(如4x、8x)时,RCAB能帮助保持细节,减少模糊。 还需要考虑RCAB的优势。比如,通过残差学习简化了优化过程,而通道注意力则增强了特征的区分能力。这可能使得模型在计算资源有限的情况下仍能保持高效,同时提升性能。 需要验证这些信息是否正确。参考用户提供的资料,引用[1]提到多尺度卷积和特征融合,引用[2]提到信息交互和注意力机制。虽然没有直接提到RCAB,但通道注意力属于注意力机制的一种,符合引用中的信息。因此可以推断RCAB的应用场景这些模块类似,用于特征提取和优化。 总结来说,RCAB的作用是通过残差结构和通道注意力机制,有效提取并优化特征,提升超分辨率重建的质量。应用场景包括各种基于深度学习的超分辨率模型,特别是在需要恢复细节和高效利用特征时。</think>RCAB(Residual Channel Attention Block)模块在图像超分辨率任务中主要用于**增强特征表达能力并优化高频细节恢复**,其核心原理是通过残差学习通道注意力机制的结合,动态调整特征通道的重要性权重。 ### 作用原理分步说明: 1. **残差学习框架** RCAB基于残差块(Residual Block)设计,包含两个卷积层和激活函数,通过跳跃连接(Skip Connection)将输入输出相加。这种方式缓解了梯度消失问题,支持更深的网络训练,公式为: $$F(x) = H(x) + x$$ 其中$H(x)$为残差函数,$x$为输入特征。 2. **通道注意力机制** 在残差块后引入通道注意力模块(Channel Attention Module),通过全局平均池化(Global Average Pooling)统计通道特征,并利用全连接层生成通道权重: $$w_c = \sigma(W_2 \cdot \delta(W_1 \cdot \text{GAP}(x)))$$ 其中$\sigma$为Sigmoid函数,$\delta$为ReLU,$W_1$和$W_2$为全连接层参数。最终输出特征为各通道加权后的结果: $$x' = w_c \cdot x$$ 该机制使网络自动关注对重建更重要的特征通道[^1]。 3. **多尺度特征融合** RCAB常多尺度特征提取模块结合(如引用[1]中提到的多尺度卷积层),通过不同感受野的卷积核捕获低频和高频信息,再利用通道注意力筛选关键特征,减少冗余计算,提升重建效率。 ### 应用场景 - **单图像超分辨率(SISR)**:如RCAN(Residual Channel Attention Networks)模型,通过堆叠多个RCAB模块恢复高分辨率图像的细节[^2]。 - **多模态超分辨率融合**:在红外可见光图像融合任务中,RCAB用于增强跨模态特征的表征能力,保留边缘和纹理信息[^1]。 - **轻量超分辨率网络**:由于通道注意力可抑制无效特征,RCAB在减少计算量的同时保持性能,适用于移动端部署。 ### 示例模型结构 ```python class RCAB(nn.Module): def __init__(self, channels): super().__init__() self.conv1 = nn.Conv2d(channels, channels, 3, padding=1) self.conv2 = nn.Conv2d(channels, channels, 3, padding=1) self.ca = ChannelAttention(channels) # 通道注意力模块 def forward(self, x): res = self.conv1(x) res = F.relu(res) res = self.conv2(res) res = self.ca(res) # 通道加权 return x + res # 残差连接 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值