【论文阅读】FedsNet: the real‑time network for pedestrian detection based on RT‑DETR

FedsNet: the real‑time network for pedestrian detection based on RT‑DETR

发表期刊:Journal of Real-Time Image Processing;发表时间:2024;
论文地址

摘要

针对行人检测中模型网络复杂、检测精度低、小目标检测容易误检和漏检等问题,提出了一种基于RT-DETR的行人检测网络FedsNet。通过构建一个新的轻量级骨干网络ResFastNet,减少了模型的参数数量和计算量,加快了行人检测的速度。将高效的多尺度注意(EMA)机制与主干网络相结合,创建了一个新的ResBlock模块,用于改进对小目标的检测。采用更有效的DySample作为上采样算子,提高了行人检测的准确性和稳健性。采用SIOU作为损失函数,提高了行人识别的准确率,加快了模型的收敛速度。在自建的行人检测数据集上进行的实验评估表明,FedsNet模型的平均准确率为91%,比RT-DETR模型提高了1.7%。模型体积和参数分别减少了15.1%和14.5%。在公开数据集WiderPerson上进行测试时,FedsNet的平均准确率达到71.3%,比原始模型提高了1.1%。此外,FedsNet网络的检测速度分别达到109.5 FPS和100.3 FPS,满足行人检测的实时性要求。

引言

行人检测技术是目标检测任务领域的关键组成部分,在人工智能、车辆辅助系统、智能视频监控、人类行为分析和智能交通等不同领域具有极其重要的作用。鉴于其广泛的应用,行人检测技术通常部署在移动智能平台上,这对模型的轻量化程度提出了很高的要求。此外,在实际的检测任务中,行人通常呈现出形态各异、衣着复杂、相互隐蔽等特点。因此,研究在满足复杂场景下模型轻量化要求的同时保持较高的准确率和检测率的方法具有重要的意义。

传统的行人检测方法依赖于人工特征提取和机器学习分类器算法来执行分类任务。然而,这种方法往往由于人工特征提取而带来较高的计算成本,导致特征提取能力不足。因此,这些方法的泛化能力较低,鲁棒性较差。随着深度学习的出现,现代检测算法可以根据其处理流程分为两个不同的组。一类包括两阶段检测算法,其生成预校验帧并随后使用卷积神经网络(CNN)对样本进行分类,例如R-CNN系列算法。另一类则是直接回归目标位置和类别如YOLO系列。然而,R-CNN和YOLO算法在后处理中都需要非最大值抑制(NMS),这可能会阻碍模型优化并损害稳健性,导致检测器延迟推理。针对这些问题,研究人员开始关注在自然语言处理(NLP)领域大放异彩的Transformer体系结构。与传统方法不同,Transformer消除了对NMS后处理的需要。此外,像GPT和BERT这样的NLP模型源自其独特的自我注意机制,最终表现优于以前的网络。这一新发现的架构

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值