目标检测中的Using multi scales training/testing

最新推荐文章于 2025-04-11 17:35:50 发布

qq_409992227

最新推荐文章于 2025-04-11 17:35:50 发布

阅读量1.9k

点赞数 4

文章标签：计算机视觉 python 神经网络深度学习

本文链接：https://blog.youkuaiyun.com/qq_40992227/article/details/115980500

版权

本文介绍了深度学习中提升模型性能的多尺度训练和测试技术。多尺度训练通过在不同迭代中随机选择图片尺度，增强模型的鲁棒性，使模型能适应不同大小的输入。而多尺度测试则通过输入不同尺寸的图片来提高检测精度，特别是在处理小物体检测时效果显著。测试阶段，通过选择合适尺度的特征图进行检测，以平衡速度与准确性。这种方法最初在视觉识别研究中被提出并应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、**multi-scale training**
二、multi-scale testing**multi-scale testing**
总结

一、multi-scale training

多尺度训练对全卷积网络有效，一般设置几种不同尺度的图片，训练时每隔一定iterations随机选取一种尺度训练。这样训练出来的模型鲁棒性强，其可以接受任意大小的图片作为输入，使用尺度小的图片测试速度会快些，但准确度低，用尺度大的图片测试速度慢，但是准确度高。

训练时，预先定义几个固定的尺度，每个epoch随机选择一个尺度进行训练（实际中还是单个尺度的训练）。

二、multi-scale testingmulti-scale testing

输入图片的尺寸对检测模型的性能影响相当明显，事实上，多尺度是提升精度最明显的技巧之一。在基础网络部分常常会生成比原图小数十倍的特征图，导致小物体的特征描述不容易被检测网络捕捉。通过输入更大、更多尺寸的图片进行训练，能够在一定程度上提高检测模型对物体大小的鲁棒性，仅在测试阶段引入多尺度，也可享受大尺寸和多尺寸带来的增益。

最早见于“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”这篇文章。

测试时，生成几个不同尺度的feature map，对每个Region Proposal，在不同的feature map上也有不同的尺度，我们选择最接近某一固定尺寸（即检测头部的输入尺寸）的Region Proposal作为后续的输入。

在这里插入图片描述
在“Object Detection Networks on Convolutional Feature Maps”这篇文章中，选择单一尺度的方式被Maxout（element-wise max，逐元素取最大）取代：随机选两个相邻尺度，经过Pooling后使用Maxout进行合并。

总结

1.multi-scale 只是从多个尺度中随机挑选的一个尺度，实际中还是单个尺度。
2.多尺度训练对全卷积网络有效，一般设置几种不同尺度的图片，训练时每隔一定iterations随机选取一种尺度训练。这样训练出来的模型鲁棒性强，其可以接受任意大小的图片作为输入，使用尺度小的图片测试速度会快些，但准确度低，用尺度大的图片测试速度慢，但是准确度高。

参考：https://www.cnblogs.com/Terrypython/p/10642091.html