一、1X1卷积的作用
修正线性激活(ReLU)
实现跨通道的交互和信息的整合
进行卷积核通道数的降维和升维
实现多个特征映射(feature map)的线性组合,实现通道个数的变换
对特征图像进行比例缩放
二、CNN池化层有什么作用
减小图像尺寸,数据降维
缓解过拟合
保持一定程度的旋转和平移不变性,MaxPooling能保证卷积神经网络在一定范围内平移特征能得到同样的激励,具有平移不变性
三、卷积神经网络中空洞卷积的作用是什么
空洞卷积也叫扩张卷积
保持参数个数不变的情况下增大了卷积核的感受野,同时可以保证输出的特征映射的大小保持不变
一个扩张率为2的3X3卷积核,感受野与5X5的卷积核相同,但参数的数量为9个
四、深度学习中常用的损失函数
交叉熵损失、平方差损失、绝对值损失、Hing Loss 等
五、Sigmoid激活函数为什么会出现梯度消失?Sigmoid函数导数的最大值出现在哪个值?
函数本身,如果输入值x过大,Sigmoid函数的导数为0
Sigmoid函数求导,导数最大是等于1/4,小于1,过深的网络传递会出现梯度消失的问题
在x=0时导数最大
六、评价指标有哪些
Accuracy(准确率)、Precision(精准率)、Recall(召回率)、识别精度、识别速度、定位精度
七、如何应对图像光照变化大
对比度拉伸,调节
如果受到光源 影响,将图片整体色彩往一方向移动,用白平衡算法进行修正,使发黄、发蓝、发红的照片更加趋近于自然光下的图像
如果是过亮,过暗,可以设置阈值函数,不用全局阈值,对特定区域进行特定阈值分割
如果是太暗,采用对数变化。公式为: S = c l o g R S = clog^R S=clogR
对数使亮度比较低的像素转换成亮度比较高的像素,高亮度的像素几乎没有变化,从而使图片整体变亮
采用拉普拉斯算子增强
八、常用的分割算法有哪些
基于阈值分割:常用的阂值法(大律法、最小误差法)
基于边缘分割:Robert算子、Prewitt算子、Sobel算子、Laplaeian算子、Canny算子
基于区域分割:区域生长法、区域分裂合并法、分水岭法
基于图论的分割方法:GrabCut方法
深度学习:语义分割
九、CNN在图像上表现好的原因
直接将图像数据作为输入,无需人工对图像进行预处理和额外的特征抽取等复杂操作
特有的细粒度特征提取方式,使得对图像的处理达到了几近人力的水平
十、简述 CNN 的演变
LeNet
2个卷积3个全连接,最早用于数字识别
AlexNet(12年ImageNet冠军)
5个卷积3个全连接,多个小卷积代替单一大卷积
使用ReLU激活函数,解决梯度小数问题
引入dropout避免模型过拟合
最大池化
ZF-Net(13年ImageNet冠军)
用一块 GPU 的稠密连接结构
将AlexNet第一层卷积核由11变成7,步长由4变为2
VGG-Nets(14年ImageNet分类第二名)
更深的网络,卷积层使用更小的filter尺寸和间隔
多个小卷积让网络有更多的非线性,更少的参数
GoogLeNet(14年ImageNet分类第一名)
引入Inception模块,采用不同大小的卷积核(感受野),最后进行不同尺度特征的融合
采用了average pooling来代替全连接层
避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度
ResNet
引入残差单元,简化学习目标和难度,加快训练速度,模型加深时,不会产生退化问题
能够有效解决训练过程中梯度消失和梯度爆炸问题
DenseNet
密集连接
加强特征传播,鼓励特征复用,极大的减少了参数量
十一、目标检测两阶段和一阶段的核心区别
目标检测技术从阶段上分为两种,一阶段和二阶段
二阶段的核心思想是首先提出proposal框
通过第一阶段的网络回归出目标框的大概位置、大小及是前景的概率
第二阶段是通过另一个网络回归出目标框的位置、大小及类别
而一阶段网络的核心是,对于输入图像,通过网络直接回归出目标大小、位置和类别
十二、R-CNN的流程
R-CNN是首个将 CNN 引入目标检测领域的算法模型
R-CNN 主要是在特征提取阶段使用CNN(AlexNet),其它阶段使用的还是传统目标检测的方法
R-CNN目标检测主要分为四个大的阶段
①产生候选区域:对于输入的图片,使用Selective Search方法,选择出2000个候选区域(每个区域大小不一)
②特征提取:使用AlexNet对每一个候选区域提取特征,得到20004096维的特征向量,特征存储到磁盘中
注1:在进行特征提取之前,需要先对上一步生成的候选区域进行调整,使其变为227227,这是因为AlexNet输入是固定的,当然,其实卷积操作的输入可以不固定,全连接层的输入大小才是固定的,这也是后面几个模型会改进的
注2:调整的方法比较暴力,不管输入是多大的图片,直接缩放到227*227
③候选区域类别判断:将2000*4096维特征向量送入到21个(20个类别+1个背景)SVM分类器中,每一个SVM分类器包含4096个参数,所以可以看成两个矩阵相乘
这样就得到了每一个候选区域是某个类别的概率值