计算机视觉面经（持续更新）

原创已于 2023-02-24 14:13:02 修改 · 4.5k 阅读

·

9

·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#计算机视觉 #深度学习 #人工智能

于 2020-05-07 10:15:22 首次发布

一、1X1卷积的作用

修正线性激活（ReLU）

实现跨通道的交互和信息的整合

进行卷积核通道数的降维和升维

实现多个特征映射（feature map）的线性组合，实现通道个数的变换

对特征图像进行比例缩放

二、CNN池化层有什么作用

减小图像尺寸，数据降维

缓解过拟合

保持一定程度的旋转和平移不变性，MaxPooling能保证卷积神经网络在一定范围内平移特征能得到同样的激励，具有平移不变性

三、卷积神经网络中空洞卷积的作用是什么

空洞卷积也叫扩张卷积

保持参数个数不变的情况下增大了卷积核的感受野，同时可以保证输出的特征映射的大小保持不变

一个扩张率为2的3X3卷积核，感受野与5X5的卷积核相同，但参数的数量为9个

四、深度学习中常用的损失函数

交叉熵损失、平方差损失、绝对值损失、Hing Loss 等

五、Sigmoid激活函数为什么会出现梯度消失？Sigmoid函数导数的最大值出现在哪个值？

函数本身，如果输入值x过大，Sigmoid函数的导数为0

Sigmoid函数求导，导数最大是等于1/4，小于1，过深的网络传递会出现梯度消失的问题

在x=0时导数最大

六、评价指标有哪些

Accuracy（准确率）、Precision（精准率）、Recall（召回率）、识别精度、识别速度、定位精度

七、如何应对图像光照变化大

直方图均衡化

对比度拉伸，调节

如果受到光源影响，将图片整体色彩往一方向移动，用白平衡算法进行修正，使发黄、发蓝、发红的照片更加趋近于自然光下的图像

如果是过亮，过暗，可以设置阈值函数，不用全局阈值，对特定区域进行特定阈值分割

如果是太暗，采用对数变化。公式为： $S = clog^R$

对数使亮度比较低的像素转换成亮度比较高的像素，高亮度的像素几乎没有变化，从而使图片整体变亮

采用拉普拉斯算子增强

八、常用的分割算法有哪些

基于阈值分割：常用的阂值法（大律法、最小误差法）

基于边缘分割：Robert算子、Prewitt算子、Sobel算子、Laplaeian算子、Canny算子

基于区域分割：区域生长法、区域分裂合并法、分水岭法

基于图论的分割方法：GrabCut方法

深度学习：语义分割

九、CNN在图像上表现好的原因

直接将图像数据作为输入，无需人工对图像进行预处理和额外的特征抽取等复杂操作

特有的细粒度特征提取方式，使得对图像的处理达到了几近人力的水平

十、简述 CNN 的演变

LeNet
2个卷积3个全连接，最早用于数字识别

AlexNet（12年ImageNet冠军）
5个卷积3个全连接，多个小卷积代替单一大卷积
使用ReLU激活函数，解决梯度小数问题
引入dropout避免模型过拟合
最大池化

ZF-Net（13年ImageNet冠军）
用一块 GPU 的稠密连接结构
将AlexNet第一层卷积核由11变成7，步长由4变为2

VGG-Nets（14年ImageNet分类第二名）
更深的网络，卷积层使用更小的filter尺寸和间隔
多个小卷积让网络有更多的非线性，更少的参数

GoogLeNet（14年ImageNet分类第一名）
引入Inception模块，采用不同大小的卷积核（感受野），最后进行不同尺度特征的融合
采用了average pooling来代替全连接层
避免梯度消失，网络额外增加了2个辅助的softmax用于向前传导梯度

ResNet
引入残差单元，简化学习目标和难度，加快训练速度，模型加深时，不会产生退化问题
能够有效解决训练过程中梯度消失和梯度爆炸问题

DenseNet
密集连接
加强特征传播，鼓励特征复用，极大的减少了参数量

十一、目标检测两阶段和一阶段的核心区别

目标检测技术从阶段上分为两种，一阶段和二阶段

二阶段的核心思想是首先提出proposal框

通过第一阶段的网络回归出目标框的大概位置、大小及是前景的概率

第二阶段是通过另一个网络回归出目标框的位置、大小及类别

而一阶段网络的核心是，对于输入图像，通过网络直接回归出目标大小、位置和类别

十二、R-CNN的流程

R-CNN是首个将 CNN 引入目标检测领域的算法模型

R-CNN 主要是在特征提取阶段使用CNN（AlexNet），其它阶段使用的还是传统目标检测的方法

R-CNN目标检测主要分为四个大的阶段

①产生候选区域：对于输入的图片，使用Selective Search方法，选择出2000个候选区域（每个区域大小不一）

②特征提取：使用AlexNet对每一个候选区域提取特征，得到20004096维的特征向量，特征存储到磁盘中
注1：在进行特征提取之前，需要先对上一步生成的候选区域进行调整，使其变为227227，这是因为AlexNet输入是固定的，当然，其实卷积操作的输入可以不固定，全连接层的输入大小才是固定的，这也是后面几个模型会改进的
注2：调整的方法比较暴力，不管输入是多大的图片，直接缩放到227*227

③候选区域类别判断：将2000*4096维特征向量送入到21个（20个类别+1个背景）SVM分类器中，每一个SVM分类器包含4096个参数，所以可以看成两个矩阵相乘

这样就得到了每一个候选区域是某个类别的概率值

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小鹏AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。