计算机视觉面经(持续更新)

一、1X1卷积的作用

修正线性激活(ReLU)

实现跨通道的交互和信息的整合

进行卷积核通道数的降维和升维

实现多个特征映射(feature map)的线性组合,实现通道个数的变换

对特征图像进行比例缩放


二、CNN池化层有什么作用

减小图像尺寸,数据降维

缓解过拟合

保持一定程度的旋转和平移不变性,MaxPooling能保证卷积神经网络在一定范围内平移特征能得到同样的激励,具有平移不变性


三、卷积神经网络中空洞卷积的作用是什么

空洞卷积也叫扩张卷积

保持参数个数不变的情况下增大了卷积核的感受野,同时可以保证输出的特征映射的大小保持不变

一个扩张率为2的3X3卷积核,感受野与5X5的卷积核相同,但参数的数量为9个


四、深度学习中常用的损失函数

交叉熵损失、平方差损失、绝对值损失、Hing Loss 等


五、Sigmoid激活函数为什么会出现梯度消失?Sigmoid函数导数的最大值出现在哪个值?

函数本身,如果输入值x过大,Sigmoid函数的导数为0

Sigmoid函数求导,导数最大是等于1/4,小于1,过深的网络传递会出现梯度消失的问题

在x=0时导数最大


六、评价指标有哪些

Accuracy(准确率)、Precision(精准率)、Recall(召回率)、识别精度、识别速度、定位精度


七、如何应对图像光照变化大

直方图均衡化

对比度拉伸,调节

如果受到光源 影响,将图片整体色彩往一方向移动,用白平衡算法进行修正,使发黄、发蓝、发红的照片更加趋近于自然光下的图像

如果是过亮,过暗,可以设置阈值函数,不用全局阈值,对特定区域进行特定阈值分割

如果是太暗,采用对数变化。公式为: S = c l o g R S = clog^R S=clogR

对数使亮度比较低的像素转换成亮度比较高的像素,高亮度的像素几乎没有变化,从而使图片整体变亮

采用拉普拉斯算子增强


八、常用的分割算法有哪些

基于阈值分割:常用的阂值法(大律法、最小误差法)

基于边缘分割:Robert算子、Prewitt算子、Sobel算子、Laplaeian算子、Canny算子

基于区域分割:区域生长法、区域分裂合并法、分水岭法

基于图论的分割方法:GrabCut方法

深度学习:语义分割


九、CNN在图像上表现好的原因

直接将图像数据作为输入,无需人工对图像进行预处理和额外的特征抽取等复杂操作

特有的细粒度特征提取方式,使得对图像的处理达到了几近人力的水平


十、简述 CNN 的演变

LeNet
2个卷积3个全连接,最早用于数字识别

AlexNet(12年ImageNet冠军)
5个卷积3个全连接,多个小卷积代替单一大卷积
使用ReLU激活函数,解决梯度小数问题
引入dropout避免模型过拟合
最大池化

ZF-Net(13年ImageNet冠军)
用一块 GPU 的稠密连接结构
将AlexNet第一层卷积核由11变成7,步长由4变为2

VGG-Nets(14年ImageNet分类第二名)
更深的网络,卷积层使用更小的filter尺寸和间隔
多个小卷积让网络有更多的非线性,更少的参数

GoogLeNet(14年ImageNet分类第一名)
引入Inception模块,采用不同大小的卷积核(感受野),最后进行不同尺度特征的融合
采用了average pooling来代替全连接层
避免梯度消失,网络额外增加了2个辅助的softmax用于向前传导梯度

ResNet
引入残差单元,简化学习目标和难度,加快训练速度,模型加深时,不会产生退化问题
能够有效解决训练过程中梯度消失和梯度爆炸问题

DenseNet
密集连接
加强特征传播,鼓励特征复用,极大的减少了参数量


十一、目标检测两阶段和一阶段的核心区别

目标检测技术从阶段上分为两种,一阶段和二阶段

二阶段的核心思想是首先提出proposal框

通过第一阶段的网络回归出目标框的大概位置、大小及是前景的概率

第二阶段是通过另一个网络回归出目标框的位置、大小及类别

而一阶段网络的核心是,对于输入图像,通过网络直接回归出目标大小、位置和类别


十二、R-CNN的流程

R-CNN是首个将 CNN 引入目标检测领域的算法模型

R-CNN 主要是在特征提取阶段使用CNN(AlexNet),其它阶段使用的还是传统目标检测的方法

R-CNN目标检测主要分为四个大的阶段

①产生候选区域:对于输入的图片,使用Selective Search方法,选择出2000个候选区域(每个区域大小不一)

②特征提取:使用AlexNet对每一个候选区域提取特征,得到20004096维的特征向量,特征存储到磁盘中
注1:在进行特征提取之前,需要先对上一步生成的候选区域进行调整,使其变为227
227,这是因为AlexNet输入是固定的,当然,其实卷积操作的输入可以不固定,全连接层的输入大小才是固定的,这也是后面几个模型会改进的
注2:调整的方法比较暴力,不管输入是多大的图片,直接缩放到227*227

③候选区域类别判断:将2000*4096维特征向量送入到21个(20个类别+1个背景)SVM分类器中,每一个SVM分类器包含4096个参数,所以可以看成两个矩阵相乘

这样就得到了每一个候选区域是某个类别的概率值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小鹏AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值