覆盖CV面试常考点,我用表格形式呈现给uu们

常见的网络结构

名称 含义 区别
RPN(Region Proposal Network) 是一种用于目标检测的神经网络模块。主要用于生成可能包含目标物体的候选区域(region proposals)。例如在Faster R - CNN中,RPN通过在特征图上滑动窗口,预测每个位置的物体得分和边界框回归参数,为后续的分类和精确定位提供候选区域,它关注的是如何高效地生成目标候选区域。 与SPP相比,RPN侧重于区域提议的生成,而SPP主要用于处理不同尺度的特征;和PAN对比,PAN重点在多尺度特征融合用于检测不同大小目标,RPN是前期的区域筛选;和Attention不同在于Attention是增强特征表达的权重分配,RPN是生成候选区域;和Focus不同,Focus是改变数据处理方式来丰富特征,RPN是专注于目标区域提议。
SPP(Spatial Pyramid Pooling) 用于处理输入图像或特征图中不同尺度的目标。它可以将不同尺寸的特征图转换为固定长度的向量表示,以适应后续的全连接层等操作。比如在目标检测中,无论输入的物体大小如何变化,SPP都能有效地提取其特征。 和RPN不同,SPP不是用于生成候选区域而是特征尺度处理;对比PAN,SPP主要针对特征尺度不变性,PAN侧重于多层级特征融合;相较于Attention,SPP主要处理尺度问题,不是特征权重分配;和Focus区别在于,SPP处理尺度差异,Focus一般是对特征通道等进行操作来增强特征。
PAN(Path Aggregation Network) 主要用于目标检测中的特征融合。它融合了不同层次的特征信息,增强对不同大小目标的检测能力。通过自底向上和自顶向下的路径聚合,有效地利用了浅层的细节特征和深层的语义特征。 与RPN不同在于,PAN是融合特征用于更好检测,RPN是生成候选区域;和SPP对比,PAN重点在特征融合而不是尺度不变性;相较于Attention,PAN是特征融合架构,Attention更多是在特征内部调整权重;与Focus的区别是,PAN是多层级特征融合方式,Focus不是融合相关的操作。
Attention 是一种机制,在深度学习中用于增强模型对关键特征部分的关注。它可以根据输入数据的不同部分的重要性分配不同的权重。例如在自然语言处理中,Attention可以让模型更加关注句子中的关键词。在计算机视觉中,也可以用于聚焦图像中的重要区域。 和RPN不同,Attention不是生成区域而是对已有特征加权;对比SPP,Attention不是处理尺度而是强调特征重要性;与PAN不同,Attention主要是权重分配而不是特征融合;和Focus不同,Attention一般是基于特征重要性加权,Focus可能是改变数据输入方式等增强特征。
Focus 是一种特征增强的策略,通过改变数据的处理方式来丰富特征表示。例如在某些模型中,通过对数据的重新采样或者组合来获取更多的特征信息。 与RPN相比,Focus不是用于区域提议而是特征增强;和SPP不同,它不是解决尺度问题而是特征表示的增强;与PAN对比,它不是特征融合而是独立的特征增强操作;和Attention的区别在于,它不是基于权重分配,而是通过改变数据处理方式来增强特征。

目标检测常考点

算法 原理要点 优势 局限性
YOLO(You Only Look Once)系列 将目标检测视为回归问题,直接预测物体类别和位置。网络结构相对简单,如YOLOv5在不同尺度特征图上检测不同大小物体,由卷积层和全连接层等组成 速度快,能实时检测,便于部署和优化 对于小目标检测精度可能相对较低,复杂场景下某些目标特征学习不够充分
SSD(Single Shot MultiBox Detector) 使用不同尺度特征图预测不同大小物体,每个特征图位置预测多个默认框及类别分数和偏移量 兼顾速度和精度,短时间内可检测多种目标 对一些特殊形状或极小目标检测效果有提升空间,模型设计相对复杂
Faster R - CNN 包含RPN(Region Proposal Network)和后续分类与回归头。RPN在特征图上滑动窗口产生候选框,通过ROI Pooling(或ROI Align)提取候选框特征进行分类和边界框回归 精度较高 速度相对较慢,不适合对实时性要求极高的场景
CenterNet 以物体中心点表示物体,预测中心点位置和尺寸等信息,无需预设锚点 简化网络结构和训练过程,在部分场景下检测效果好且速度可观 对密集目标检测时可能存在中心点混淆问题,在一些极端遮挡场景下性能受影响
DETR(Detection Transformer) 基于Transformer架构,将目标检测转换为集合预测问题,可直接输出检测结果,避免复杂手工设计组件(如NMS) 能处理不同数量目标,复杂场景表现出色 计算资源消耗大,训练时间长,对小数据集可能过拟合

目标追踪常考点

算法 原理要点 优势 局限性
MOSSE 基于相关滤波,在频域计算滤波器响应,通过训练滤波器使卷积结果与目标模板误差最小,公式为 H = X ‾ Y X ‾ X + λ H=\frac{\overline{X}Y}{\overline{X}X + \lambda} H=XX+λXY 计算速度快,适用于实时性要求高、目标外观变化小的简单场景 对目标外观变化适应性差,目标形变、遮挡时跟踪效果下降
KCF 基于CSK算法,采用核函数处理非线性关系,将跟踪问题转化为分类问题,利用循环矩阵减少计算量,考虑样本权重更新滤波器 对目标外观变化适应能力较强,能应对一定程度的旋转和尺度变化 目标严重遮挡、快速运动时可能跟踪丢失,核函数和参数影响跟踪效果
Siamese Network(如SiamFC) 由两个相同子网络(通常是CNN)构成,一个输入目标模板图像,一个输入当前帧搜索图像,提取特征后通过互相关操作计算相似度,根据响应图峰值定位目标 能学习目标特征表示,对目标平移、旋转等外观变化有鲁棒性 长期跟踪中,目标外观剧烈变化或长时间遮挡可能导致跟踪失败
DeepSORT 结合深度学习外观模型(用CNN提取特征)和卡尔曼滤波,用外观模型区分目标,卡尔曼滤波预测目标状态,新目标检测后提取特征与已跟踪目标匹配并更新状态 能在复杂场景下跟踪多个目标,有效处理遮挡、目标新生和消失情况 计算资源消耗大,在资源受限设备上运行困难,性能依赖参数设置和训练质量

图像识别常考点

网络结构/算法 原理常考 优势 局限性
传统机器学习算法 - SVM(Support Vector Machine) 通过寻找超平面区分不同类别图像特征向量,线性不可分数据可借核函数映射到高维空间。如基于HOG特征提取后的图像分类。 小样本数据表现佳,泛化能力好,对高维数据有处理力且模型解释性强。 大规模数据训练慢,特征提取依赖人工设计,复杂图像语义理解弱。
深度学习算法 - AlexNet 含多个卷积与全连接层,如5个卷积层和3个全连接层,采用ReLU激活函数缓解梯度消失。 开启深度学习图像识别大规模应用,在ImageNet竞赛显著降误率。 深度有限,复杂图像场景与细分类任务表现欠佳。
深度学习算法 - VGGNet 规整结构,如VGG - 16、VGG - 19,堆叠3x3小卷积核达16 - 19层深度。 图像分类出色,提取语义特征好,适应不同大小图像输入。 网络深致计算大、训练久,硬件资源需求高。
深度学习算法 - ResNet(Residual Network) 引入残差连接,残差块学习残差函数 F ( x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值