覆盖CV面试常考点
常见的网络结构
名称 | 含义 | 区别 |
---|---|---|
RPN(Region Proposal Network) | 是一种用于目标检测的神经网络模块。主要用于生成可能包含目标物体的候选区域(region proposals)。例如在Faster R - CNN中,RPN通过在特征图上滑动窗口,预测每个位置的物体得分和边界框回归参数,为后续的分类和精确定位提供候选区域,它关注的是如何高效地生成目标候选区域。 | 与SPP相比,RPN侧重于区域提议的生成,而SPP主要用于处理不同尺度的特征;和PAN对比,PAN重点在多尺度特征融合用于检测不同大小目标,RPN是前期的区域筛选;和Attention不同在于Attention是增强特征表达的权重分配,RPN是生成候选区域;和Focus不同,Focus是改变数据处理方式来丰富特征,RPN是专注于目标区域提议。 |
SPP(Spatial Pyramid Pooling) | 用于处理输入图像或特征图中不同尺度的目标。它可以将不同尺寸的特征图转换为固定长度的向量表示,以适应后续的全连接层等操作。比如在目标检测中,无论输入的物体大小如何变化,SPP都能有效地提取其特征。 | 和RPN不同,SPP不是用于生成候选区域而是特征尺度处理;对比PAN,SPP主要针对特征尺度不变性,PAN侧重于多层级特征融合;相较于Attention,SPP主要处理尺度问题,不是特征权重分配;和Focus区别在于,SPP处理尺度差异,Focus一般是对特征通道等进行操作来增强特征。 |
PAN(Path Aggregation Network) | 主要用于目标检测中的特征融合。它融合了不同层次的特征信息,增强对不同大小目标的检测能力。通过自底向上和自顶向下的路径聚合,有效地利用了浅层的细节特征和深层的语义特征。 | 与RPN不同在于,PAN是融合特征用于更好检测,RPN是生成候选区域;和SPP对比,PAN重点在特征融合而不是尺度不变性;相较于Attention,PAN是特征融合架构,Attention更多是在特征内部调整权重;与Focus的区别是,PAN是多层级特征融合方式,Focus不是融合相关的操作。 |
Attention | 是一种机制,在深度学习中用于增强模型对关键特征部分的关注。它可以根据输入数据的不同部分的重要性分配不同的权重。例如在自然语言处理中,Attention可以让模型更加关注句子中的关键词。在计算机视觉中,也可以用于聚焦图像中的重要区域。 | 和RPN不同,Attention不是生成区域而是对已有特征加权;对比SPP,Attention不是处理尺度而是强调特征重要性;与PAN不同,Attention主要是权重分配而不是特征融合;和Focus不同,Attention一般是基于特征重要性加权,Focus可能是改变数据输入方式等增强特征。 |
Focus | 是一种特征增强的策略,通过改变数据的处理方式来丰富特征表示。例如在某些模型中,通过对数据的重新采样或者组合来获取更多的特征信息。 | 与RPN相比,Focus不是用于区域提议而是特征增强;和SPP不同,它不是解决尺度问题而是特征表示的增强;与PAN对比,它不是特征融合而是独立的特征增强操作;和Attention的区别在于,它不是基于权重分配,而是通过改变数据处理方式来增强特征。 |
目标检测常考点
算法 | 原理要点 | 优势 | 局限性 |
---|---|---|---|
YOLO(You Only Look Once)系列 | 将目标检测视为回归问题,直接预测物体类别和位置。网络结构相对简单,如YOLOv5在不同尺度特征图上检测不同大小物体,由卷积层和全连接层等组成 | 速度快,能实时检测,便于部署和优化 | 对于小目标检测精度可能相对较低,复杂场景下某些目标特征学习不够充分 |
SSD(Single Shot MultiBox Detector) | 使用不同尺度特征图预测不同大小物体,每个特征图位置预测多个默认框及类别分数和偏移量 | 兼顾速度和精度,短时间内可检测多种目标 | 对一些特殊形状或极小目标检测效果有提升空间,模型设计相对复杂 |
Faster R - CNN | 包含RPN(Region Proposal Network)和后续分类与回归头。RPN在特征图上滑动窗口产生候选框,通过ROI Pooling(或ROI Align)提取候选框特征进行分类和边界框回归 | 精度较高 | 速度相对较慢,不适合对实时性要求极高的场景 |
CenterNet | 以物体中心点表示物体,预测中心点位置和尺寸等信息,无需预设锚点 | 简化网络结构和训练过程,在部分场景下检测效果好且速度可观 | 对密集目标检测时可能存在中心点混淆问题,在一些极端遮挡场景下性能受影响 |
DETR(Detection Transformer) | 基于Transformer架构,将目标检测转换为集合预测问题,可直接输出检测结果,避免复杂手工设计组件(如NMS) | 能处理不同数量目标,复杂场景表现出色 | 计算资源消耗大,训练时间长,对小数据集可能过拟合 |
目标追踪常考点
算法 | 原理要点 | 优势 | 局限性 |
---|---|---|---|
MOSSE | 基于相关滤波,在频域计算滤波器响应,通过训练滤波器使卷积结果与目标模板误差最小,公式为 H = X ‾ Y X ‾ X + λ H=\frac{\overline{X}Y}{\overline{X}X + \lambda} H=XX+λXY | 计算速度快,适用于实时性要求高、目标外观变化小的简单场景 | 对目标外观变化适应性差,目标形变、遮挡时跟踪效果下降 |
KCF | 基于CSK算法,采用核函数处理非线性关系,将跟踪问题转化为分类问题,利用循环矩阵减少计算量,考虑样本权重更新滤波器 | 对目标外观变化适应能力较强,能应对一定程度的旋转和尺度变化 | 目标严重遮挡、快速运动时可能跟踪丢失,核函数和参数影响跟踪效果 |
Siamese Network(如SiamFC) | 由两个相同子网络(通常是CNN)构成,一个输入目标模板图像,一个输入当前帧搜索图像,提取特征后通过互相关操作计算相似度,根据响应图峰值定位目标 | 能学习目标特征表示,对目标平移、旋转等外观变化有鲁棒性 | 长期跟踪中,目标外观剧烈变化或长时间遮挡可能导致跟踪失败 |
DeepSORT | 结合深度学习外观模型(用CNN提取特征)和卡尔曼滤波,用外观模型区分目标,卡尔曼滤波预测目标状态,新目标检测后提取特征与已跟踪目标匹配并更新状态 | 能在复杂场景下跟踪多个目标,有效处理遮挡、目标新生和消失情况 | 计算资源消耗大,在资源受限设备上运行困难,性能依赖参数设置和训练质量 |
图像识别常考点
网络结构/算法 | 原理常考 | 优势 | 局限性 |
---|---|---|---|
传统机器学习算法 - SVM(Support Vector Machine) | 通过寻找超平面区分不同类别图像特征向量,线性不可分数据可借核函数映射到高维空间。如基于HOG特征提取后的图像分类。 | 小样本数据表现佳,泛化能力好,对高维数据有处理力且模型解释性强。 | 大规模数据训练慢,特征提取依赖人工设计,复杂图像语义理解弱。 |
深度学习算法 - AlexNet | 含多个卷积与全连接层,如5个卷积层和3个全连接层,采用ReLU激活函数缓解梯度消失。 | 开启深度学习图像识别大规模应用,在ImageNet竞赛显著降误率。 | 深度有限,复杂图像场景与细分类任务表现欠佳。 |
深度学习算法 - VGGNet | 规整结构,如VGG - 16、VGG - 19,堆叠3x3小卷积核达16 - 19层深度。 | 图像分类出色,提取语义特征好,适应不同大小图像输入。 | 网络深致计算大、训练久,硬件资源需求高。 |
深度学习算法 - ResNet(Residual Network) | 引入残差连接,残差块学习残差函数 F ( x |