基于YOLOv5的移动平台语义场景分类方法
1. 引言
在移动平台上进行场景分类时,相机抖动和视角变化会对分类结果产生影响。为了解决这些问题,提出了一种基于YOLOv5的语义场景分类方法。该方法通过以下步骤实现:
1. 最小化相机抖动的影响,并减少视角变化带来的干扰。
2. 基于每帧中物体的类别可能性、位置和大小等信息,添加语义嵌入层,将这些信息融合成一个表示向量,同时考虑TF-IDF技术。
3. 采用LSTM作为最终分类器,捕捉视频中的时间信息。
2. 相关工作
场景识别方法主要分为两类:手工特征方法和基于学习的特征方法。
2.1 手工特征方法
- 整体特征方法 :21世纪初,整体特征方法是场景识别的主流方法,通过图像的一些低级视觉特征进行识别。例如GIST、语义典型性、CENTRIST等,推理速度快但准确率低,难以概括整个场景,场景识别性能较差。
- 局部特征方法 :为提高识别性能,许多研究转向局部特征方法。Bag-of-Visual-words框架将大量局部特征集成到固定维度的图像表示中。局部特征提取方法包括SIFT、HOG、OTC等,能提供更具判别性的信息和线索,比整体特征更鲁棒,但仍处于低语义水平,难以进行场景识别。
2.2 基于学习的特征表示
手工特征虽能有效表示图像,但语义水平较低,“语义鸿沟”限制了其性能和鲁棒性。深度学习网络可自适应提取判别特征,随着网络层数增加,语义水平提高,主要分为端到端网络和两阶段方法。
-
超级会员免费看
订阅专栏 解锁全文
363

被折叠的 条评论
为什么被折叠?



