论文笔记

一、OverFeat大框架是Hinton的Alex-net,创新点主要在以下几点:

1.训练时输入大小固定,测试时用多尺度输入;

2.没有进行对比度归一化;

3. max pooling没有采用overlap

4. 3、4、5层的feature map 比Hinton的多。

OverFeat在2013年的ImageNet上的性能表现并不是最优秀的,在18个team里面排名第5,但是他提出的测试时采用多尺度输入的idea比较

二、YOLO与rcnn、fast rcnn及faster rcnn的区别如下:

[1] YOLO训练和检测均是在一个单独网络中进行。YOLO没有显示地求取region proposal的过程。而rcnn/fast rcnn 采用分离的模块(独立于网络之外的selective search方法)求取候选框(可能会包含物体的矩形区域),训练过程因此也是分成多个模块进行。Faster rcnn使用RPN(region proposal network)卷积网络替代rcnn/fast rcnn的selective
search模块,将RPN集成到fast rcnn检测网络中,得到一个统一的检测网络。尽管RPN与fast rcnn共享卷积层,但是在模型训练过程中,需要反复训练RPN网络和fast rcnn网络(注意这两个网络核心卷积层是参数共享的)。

[2]
YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而rcnn/fast rcnn/faster rcnn将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)。

三、YOLO9000

YOLO预测bbox的x,y,w,h,但是卷积神经网络具有平移不变性,且anchor boxes的位置被每个栅格固定,因此我们只需要通过k-means计算出anchor boxes的width和height即可,即object-class,x,y三个值我们不需要。

使用WordNet联合训练大数据集,加入多标签

四、FCN全卷积网络https://zhuanlan.zhihu.com/p/22308032

图像语义分割的输出需要是个分割图,且不论尺寸大小,但是至少是二维的。所以,我们需要丢弃全连接层,换上全卷积层,而这就是全卷积网络

FCN主要使用了三种技术:
卷积化(Convolutional):丢弃全连接层
上采样(Upsample):反卷积
跳跃结构(Skip Layer):因为如果将全卷积之后的结果直接上采样得到的结果是很粗糙的,所以作者将不同池化层的结果进行上采样之后来优化输出

主要贡献:
将端到端的卷积网络推广到语义分割中;
重新将预训练好的Imagenet网络用于分割问题中;
使用反卷积层进行上采样;
提出了跳跃连接来改善上采样的粗糙程度。

五、Deeplab

Deeplab这里使用了一个非常优雅的做法:将pooling的stride改为1,再加上 1 padding。这样池化后的图片尺寸并未减小,并且依然保留了池化整合特征的特性

因为池化层变了,后面的卷积的感受野也对应的改变了,这样也不能进行fine-tune了。所以,Deeplab提出了一种新的卷积,带孔的卷积:Atrous Convolution

六、OHEM 
简单来说就是从ROI中选择hard,而不是简单的采样。 
Forward: 全部的ROI通过网络,根据loss排序; 
Backward:根据排序,选择B/N个loss值最大的(worst)样本来后向传播更新model的weights. 
这里会有一个问题,即位置相近的ROI在map中可能对应的是同一个位置,loss值是相近的,所以针对这个问题,提出的解决方法是:对hard做nms,然后再选择B/N个ROI反向传播,这里nms选择的IoU=0.7。 
在后向传播时,直觉想到的方法就是将那些未被选中的ROI的loss直接设置为0即可,但这实际上还是将所有的ROI进行反向传播,时间和空间消耗都很大,所以作者在这里提出了本文的网络框架,用两隔网络,一个只用来前向传播,另一个则根据选择的ROIs进行后向传播,的确增加了空间消耗(1G),但是有效的减少了时间消耗,实际的实验结果也是可以接受的。


### YOLOv11 论文笔记与分析 #### 关键架构增强功能概述 YOLOv11引入了一系列创新性的改进措施来提升模型性能和效率。这些改进不仅增强了检测精度,同时也提高了推理速度[^1]。 #### 主要技术特点 - **多尺度预测**:通过采用不同大小的感受野来进行特征提取,使得网络能够更好地捕捉到各种尺寸的对象。 - **自适应锚框机制**:动态调整预设边界框的比例尺,从而更精准地匹配实际物体形状。 - **注意力模块集成**:利用通道间依赖关系以及空间位置信息的重要性差异,进一步优化了特征表示能力。 - **轻量化设计思路**:在保持高准确率的同时尽可能减少参数量与计算成本,适用于资源受限环境下的部署应用。 #### 后处理策略 对于每一个候选区域(bounding box),其最终得分由两部分组成:一是该区域内存在目标物的可能性;二是给定此前提下属于特定分类的概率值乘积形式表达。这有助于筛选出最有可能为目标实体的位置并去除冗余重叠项[^5]。 ```python def calculate_final_score(confidence, class_probabilities): """ Calculate final score for each bounding box. Args: confidence (float): Confidence that an object exists within the bbox. class_probabilities (list[float]): Probabilities of different classes given there's an object. Returns: list[float]: Final scores indicating which category it truly belongs to with highest likelihood. """ return [confidence * prob for prob in class_probabilities] ``` #### 泛化能力 得益于全局视野的优势,即输入数据为完整的图像而非局部裁剪片段,因此即使面对未曾见过的新场景时也能表现出较强的鲁棒性和稳定性[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值