
目标检测
文章平均质量分 81
关注深度学习目标检测类文章,anchor-based,anchor-free以及正负样本分配等
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
Fine-Grained head pose estimation without keypoints
Fine-Grained Head Pose Estimation Without Keypoints-论文解读代码论文Abstract传统的头部姿态计算方法是通过人脸上关键点求解二维到三维对应问题,因为对landmark 检测性能的依赖而导致存在不足。论文中提出一种基于多损失卷积神经网络的姿态估计方法。在代码中交叉熵(CrossEntropyLoss)包含了softmax,分类时从-99到99,以3为间隔,共67个值,66个间隔,作为离散的分类,对这些使用交叉熵计算损失。原创 2025-01-23 11:25:10 · 535 阅读 · 0 评论 -
retinaface人脸矫正模块
通过前面的描述我们知道,RetinaFace里面采用了特征金字塔FPN,其中低层特征用来检测小的人脸,高层的特征用来检测大的人脸,但是如果下游是人脸识别任务的话,小的人脸对于人脸识别结果不论是在准确率还是召回率方面都没有太多正向的作用。我看到retinaface输出的bbox和kps中有负值,在insightface全流程的代码中,会有一个face_align的矫正模块,在一些三方的retinaface+facenet的模块中我也看到了对于负值的矫正。后续结合arch来解码真实的框,所以会有负值的。原创 2024-12-24 09:57:59 · 963 阅读 · 0 评论 -
大模型时代的目标检测
也是开放集任务,相比于 open set,需要知道不在训练集类别中的新预测物体类别。这类模型通常都需要接入文本作为一个模态输入,因为开放词汇目标检测的定义就是给定任意词汇都可以检测出来。这个任务是指在实际应用上可以检测任何前景物体,但是有些不需要预测类别,只要检测出框就行。在很多场合也有应用场景,有点像类无关的增量训练。训练时候通常是要确保训练集和测试集的类别不能重复,否则就是信息泄露了,但是训练和测试集图片是否重复其实也没有强制限制。原创 2024-07-12 11:37:47 · 1003 阅读 · 0 评论 -
[工业项目]之行人检测
yolov5训练(行人检测)->yoloair(训练代码魔改)->部署(libtorch/ort)->rk3588 (rknnlite2/fastdeploy)->行人检测专利。基于深度学习改进bifpn的yolov5厨房监控行人检测算法。原创 2023-10-30 11:14:46 · 184 阅读 · 0 评论 -
centerpose关键点模型训练
其实上述这套设计是有冗余的,首先前4个参数预测了17个点,17点相对于中心点的offset,第5/6个参数相当于又预测了一波17个点,但是这样的冗余设计是有意义的,首先第5个分支直接对于点的预测置信度是更高的,但是它没法关联成一个person,这个关联要依赖分支4,因为1,2,3分支定义了一个person,分支4可以估计17个点,这17个点可以根据距离关联到5,6分支上,同样对于5,6分支没有预测的点,也可以用4分支来输出。get_model是通过config来进行配置,不用配置,直接写在一起。原创 2023-07-25 13:47:10 · 505 阅读 · 0 评论 -
[图像检索] paddleclas pp-shitu v1/v2
IVF倒排索引,速度快,精度略低。FLAT暴力检索,精度最高,速度慢。有商业化公司做落地,做的是收银台视觉识别的项目,初次之外,视觉类的识别项目还是不少的,比如元气森林的柜子很多也是纯视觉的方案,纯视觉方案这块,如果是类似yolo系列的检测这个问题还是挺大的,更新类目不方便,不好处理badcase,在这一块,还是检索方案最优。向量检索技术在图像识别、图像检索中应用比较广泛,其主要目的是,对于给定的查询向量,在已经建立好的向量库中,与库中所有待查向量进行特征向量的相似度或者距离计算,得到相似度排序。原创 2023-05-29 17:26:10 · 861 阅读 · 0 评论 -
yoloair行人检测算法优化
300轮:metrics/precision:0.83757,metrics/recall:0.749,map_0.5:0.84328,map_0.5:0.95:0.56934。原创 2023-04-29 10:59:25 · 177 阅读 · 0 评论 -
DETR:end-to-end object detection with transformers
DETR 论文精读【论文精读】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading/, 视频播放量 90699、弹幕量 493、点赞数 3566、投硬币枚数 2939、收藏人数 2564、转发人数 663, 视频作者 跟李沐学AI, 作者简介 ,相关视频:在线求偶|26岁985副教授,博一研究生 求偶视频,Transformer论文逐段精读【论文精读】,ViLT 论文精读【论文精读】,中科院博士单人间,一个小发现…单人间也别干坏事儿~,审稿人无法拒绝原创 2023-04-19 11:16:13 · 607 阅读 · 1 评论 -
yolov5行人检测算法
一、准备深度学习环境本人的笔记本电脑系统是:Windows10首先进入YOLOv5开源网址,手动下载zip或是git clone 远程仓库,本人下载的是YOLOv5的5.0版本代码,代码文件夹中会有requirements.txt文件,里面描述了所需要的安装包。采用coco-voc-mot20数据集,一共是41856张图,其中训练数据37736张图,验证数据3282张图,测试数据838张。目前行人检测的数据集包括coco_person,voc_person,mot20/16、17,原创 2023-04-07 13:39:21 · 2586 阅读 · 1 评论 -
模糊图像检测(c++)
覆盖业界热门 AI 模型并提供开箱即用的部署体验,包括图像分类、目标检测、图像分割、人脸检测、人脸识别、人体关键点识别、文字识别、语义理解等多任务,满足开发者多场景,多硬件、多平台的产业部署需求。后续会开源一些c++代码用来处理模糊图像检测,大概的项目背景是对前置摄像头采集的区域图像进行模糊去除,思路大概会上一个检测模型,传统算法的一些亮度,模糊,曝光,色偏,黑屏等检测,之后再上一个模糊的分类模型,会全部使用c++,模型部署采用fastdeploy。图像清晰度,是指影像上各细部影纹及其边界的清晰程度。原创 2023-01-18 15:37:22 · 2926 阅读 · 0 评论 -
paddledetection推理代码结构
我自己也稍微整合了点应用放在xiaobao中,也是为了熟悉paddle这一套推理流程。整体代码的入口在pipeline中,是通过config的形式传入入参,config目前包括了huamn,vehicle的一些基本模型。模型的一些基本参数和外置参数配置在cfg_utils中。download.py:主要是权重的下载,如果在config中配置提前下载了权重,基本就不用涉及这个模块。datacollector.py: 是提前定义好的一些类,用来做数据结构。pipeline.py:是整个推理的核心代码。原创 2023-01-12 17:49:09 · 857 阅读 · 0 评论 -
目标追踪综述
本文的综述就是对上面的前三个材料做一点基本的总结,目前主流的目标跟踪算法都是基于tracking-by-detection,即基于目标检测的结果来进行目标跟踪。卡尔曼滤波可以基于目标前一时刻的位置,来预测当时刻的位置,并且可以比传感器更准确的估计目标的位置。deepsort:沿用了sort的框架,在association的时候采用了级联匹配的做法,先通过特征的余弦相似度进行匹配ReID,然后通过IOU匹配,并且使用了很多涨点的trick,如在未检测到跟踪目标帧保留跟踪ID等。它的提出者,鲁道夫.E.卡尔…原创 2023-01-10 19:48:44 · 2701 阅读 · 0 评论 -
A survey on video action recognition in sports:datasets,methods and application
形成运动轨迹的传统方法严重依赖与光流的提取,其中绝大多数都是基于固定摄像机记录的视频,然后在最近的体育视频/流媒体中,由于视频的高光不断变化,放大和缩小高光,相机运动不再固定,不断变化,这自然会导致录制的视频流中的视图切割和或多或少的遮挡。dense and fast-moving actions:对于传统识别基线,处理通常是4-20s左右的动作,或者20s以上的,但是乒乓球很多都是0.4-2s的,动作密集,不到6s内,有8-10个动作。soccer-issia:通常用于球员追踪,检测,主要是球员边界框。原创 2022-12-16 16:56:52 · 700 阅读 · 0 评论 -
spatial temporal graph convolutional network for skeleton-based action recognition
2. 相关工作...每一个ST-GCN采用Resnet的结构,前三层的输出有64个通道,中间三层有128个通道,最后三层有256个通道,在每次经过ST-CGN结构后,以0.5的概率随机将特征dropout,第4和第7个时域卷积层的strides设置为2。图卷积网络(Graph Convolutional Network,GCN)借助图谱的理论来实现空间拓扑图上的卷积,提取出图的空间特征,具体来说,就是将人体骨骼点及其连接看作图,再使用图的邻接矩阵、度矩阵和拉普拉斯矩阵的特征值和特征向量来研究该图的性质。原创 2022-11-23 14:41:30 · 1022 阅读 · 0 评论 -
BMN:Boundary-matching network for temporal action proposal generation
上图,可以表示所有潜在的时序提名,在BM置信度图中每个点所代表的的数值就是其所对应的时序提名的置信度分数。因此可以通过生成置信度图来同时给所有时序提名生成置信度分数,横轴是T输入时序特征序列的长度,纵轴是D,为最大的时序提名长度, 注意上图,相同的行表明时序提名具有相同的时序长度,纵轴是时序提名长度,相同的纵轴表明时序长度相同,相同的列表明输入时序特征的长度的起始点是一样的,则具有相同的开始时间,实际上这个二维的BM图上的每个点都代表了一个二维坐标,即起始时间和时序长度,那么就锁定了一个时序的置信度。原创 2022-11-22 20:04:46 · 1932 阅读 · 0 评论 -
TimeSformer:Is Space-Time attention all you need for video understanding?
这里是标准的transformer架构,可以看到右侧是encoder模块,timesformer包括了L个encoder,每个z经过LN之后产生了三个维度的qkv,w是学习的。每个像素块通过p,t进行索引,这里是transformer输入的常规操作,将patch转成向量,这里的向量z中还需要位置信息,transformer的序列式处理弱化了空间位置关系。这里是将一个视频中的所有帧全都处理成了patch,其中p表示其在一帧中的位置,t表示帧的索引,通过这两个值就建立了二维的一个体系。原创 2022-11-22 14:42:48 · 814 阅读 · 0 评论 -
temporal shift module(TSM)
而online模式用于对视频类型的实时预测,在这种情况下,无法预知下一秒的图像,因此只能将channel维度由过去向现在移动,而不能从未来向现在移动。视频中核心是视频动作识别,本质就是视频分类,可以用作特征提取,视频时序提取是输入一段长视频获取其中的时序片段,时空定位是同时获取视频中的人物物体的空间位置,核心三大任务,除此之外视频特征提取embedding,这块主要是结合多模态去做,视频,音频和文本侧特征的综合利用和提取。基于飞桨开源框架构建TSM,并实现对数据集UCF101的视频理解。原创 2022-11-22 11:08:40 · 4122 阅读 · 1 评论 -
yolof:you only look one-level feature
轻松掌握 MMDetection 中常用算法(六):YOLOF - 知乎文@ 0000070 摘要YOLOF 全称是 You Only Look One-level Feature, 其通过详细的实验指出特征金字塔 FPN 模块的成功在于其对目标优化问题的分治解决方案,而不是我们常说的多尺度特征融合。针对该结论,设计了一个…https://zhuanlan.zhihu.com/p/370758213快速过一下该文,后面就没有时间像之前那样一点一点的分析,但是在目标检测领域,从retina...原创 2022-03-20 16:23:36 · 3764 阅读 · 0 评论 -
mmdet中yolo/yolox/retinanet/fcos/centernet/atss
1.yolov32.yolox3. retinanet4.fcos5.atss原创 2022-03-17 23:43:22 · 665 阅读 · 0 评论 -
目标检测小结
除了从backbone,neck,head,loss以及数据预处理上理解整个架构,还要从最核心的正负样本定义,匹配上理解,这块分两部分,一是anchor-based的,一是anchor-free方法。此外从最顶层可能要理解一下one-stage和two-stage,目前来看,two-stage的算法已经很少了,主要就是one-stage中的anchor-free和anchor-based的理解。正负样本分配上,anchor-based的包括anchor生成,AnchorG...原创 2022-03-15 11:16:16 · 4463 阅读 · 0 评论 -
yolox的正负样本分配策略mmdet代码详解
以mmdet为例,正负样本分配的核心代码在YOLOXHead中的MlvlPointGenerator,SimOTTAssigner,PseudoSampler,_bbox_decode中,其中核心代码在SimOTTAssigner.yolox是解耦头,输入fpn之后给出的是cls_score:(8,2,80,80),(8,2,40,40),(8,2,20,20),bbox_pred:(80,4,80,80),(80,4,40,40),(80,4,20,20),objectness:(80,1,80,80原创 2022-03-14 15:55:44 · 2546 阅读 · 2 评论 -
yolov3的正负样本分配策略mmdet代码详解
以mmdet代码为例,核心代码在YOLOANchorGenerator,GridAssigner,PseudoSampler,YOLOBBoxCoder中,正负样本分配在GridAssigner输入是neck后,即fpn后的值,(8,512,19,19),(8,256,38,38),(8,128,76,76),8是bs,输出是模型预测(8,21,19,19),(8,21,38,38),(8,21,76,76),这里的21=3*7,3是anchor,7=4+1+2,4是xywh,1是边界框置信度,2是类别原创 2022-03-10 16:51:32 · 4095 阅读 · 0 评论 -
目标检测正负样本区分和平衡策略总结
目标检测正负样本区分策略和平衡策略总结(一) - 知乎0 简介本文抛弃网络具体结构,仅仅从正负样本区分和正负样本平衡策略进行分析,大体可以分为 正负样本定义、正负样本采样和平衡loss设计三个方面,主要是网络预测输出和loss核心设计即仅仅涉及网络的head部分。所…https://zhuanlan.zhihu.com/p/138824387目标检测正负样本区分策略和平衡策略总结(二) - 知乎0 简介本文抛弃网络具体结构,仅仅从正负样本区分和正负样本平衡策略进行分析,大体可以分为 正负样本定义、正负样本采原创 2021-12-30 20:13:49 · 4716 阅读 · 5 评论 -
yolox:exceeding yolo series in 2021
深入浅出Yolo系列之Yolox核心基础完整讲解 - 知乎在Yolov4、Yolov5刚出来时,大白就写过关于Yolov3、Yolov4、Yolov5的文章,并且做了一些讲解的视频,反响都还不错。 而从 2015年的Yolov1,2016年Yolov2,2018年的Yolov3,再到2020年的Yolov4、Yolov5,Yolo系列也…https://zhuanlan.zhihu.com/p/397993315如何评价旷视开源的YOLOX,效果超过YOLOv5? - 知乎https://www.zhihu原创 2021-12-29 19:16:47 · 2479 阅读 · 1 评论 -
yolov5
深入浅出Yolo系列之Yolov5核心基础知识完整讲解 - 知乎大白在之前写过 《深入浅出Yolo系列之Yolov3&Yolov4核心基础知识完整讲解》对 Yolov4的相关基础知识做了比较系统的梳理,但Yolov4后不久,又出现了Yolov5,虽然作者没有放上和Yolov4的直接测试对比,但在COCO…https://zhuanlan.zhihu.com/p/172121380进击的后浪yolov5深度可视化解析 - 知乎0 摘要论文:暂无 github: https://github.com/u原创 2021-12-28 19:55:35 · 5170 阅读 · 0 评论 -
yolov4:optimal speed and accuracy of object detection
YOLO V4 — 网络结构和损失函数解析(超级详细!) - 知乎1.前言最近用YOLO V4做车辆检测,配合某一目标追踪算法实现 车辆追踪+轨迹提取等功能,正好就此结合论文和代码来对YOLO V4做个解析。先放上个效果图(半成品),如下:话不多说,现在就开始对YOLO V4进行总结。 YO…https://zhuanlan.zhihu.com/p/150127712CSPNet——PyTorch实现CSPDenseNet和CSPResNeXt - 知乎代码已同步到GitHub:https://github原创 2021-12-24 16:44:08 · 1815 阅读 · 0 评论 -
yolov3:an incremental improvement
【论文解读】Yolo三部曲解读——Yolov3 - 知乎2021.3.31更:最近用同样的画图和讲解风格,解读了下Transformer的结构和原理,不管是搞cv还是nlp,Transformer的地位越来越高了。欢迎捧个场: Algernon:通过极简翻译模型Demo,彻底理解Transformer2020.10.30更…https://zhuanlan.zhihu.com/p/76802514目标检测正负样本区分策略和平衡策略总结(一) - 知乎0 简介本文抛弃网络具体结构,仅仅从正负样本区分和正负样本原创 2021-12-23 19:12:38 · 1562 阅读 · 0 评论 -
yolov9000:better,faster,stronger
目标检测|YOLOv2原理与实现(附YOLOv3) - 知乎码字不易,欢迎给个赞! 欢迎交流与转载,文章会同步发布在公众号:机器学习算法全栈工程师(Jeemy110) 前期文章:小白将:目标检测|YOLO原理与实现小白将:目标检测|SSD原理与实现小白将:综述|基于深度学习的目标…https://zhuanlan.zhihu.com/p/35325884【论文解读】Yolo三部曲解读——Yolov2 - 知乎打个广告,复现Yolov3之后的深度原理剖析请移步下文(含代码): 【算法实验】能检测COCO并鉴黄原创 2021-12-22 19:16:22 · 1865 阅读 · 0 评论 -
yolov1 - you only look once:unified,real-time object detection
你一定从未看过如此通俗易懂的YOLO系列(从v1到v5)模型解读 (上) - 知乎转载请务必注明出处。科技猛兽:你一定从未看过如此通俗易懂的YOLO系列(从v1到v5)模型解读 (上)0 前言本文目的是用尽量浅显易懂的语言让零基础小白能够理解什么是YOLO系列模型,以及他们的设计思想和改进思路分别…https://zhuanlan.zhihu.com/p/183261974【论文解读】Yolo三部曲解读——Yolov1 - 知乎打个广告,复现Yolov3之后的深度原理剖析请移步下文(含代码): 【算法实验】原创 2021-12-21 19:36:53 · 443 阅读 · 0 评论 -
bridging the gap between anchor-based and anchor-free detection via adaptive training sample select
ATSS 算法——揭秘anchor-free和anchor-based算法差异_AI之路-优快云博客_atss算法论文:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection论文链接:https://arxiv.org/abs/1912.02424代码链接:https://github.com/sfzhang15/ATSS2018年发表的CornerNet.原创 2021-12-20 21:15:55 · 815 阅读 · 0 评论 -
fcos:fully convolutional one-stage object detection
轻松掌握 MMDetection 中常用算法(三):FCOS - 知乎文@ 0000070 摘要在前系列文章中,我们选择了主流一阶段算法 RetinaNet 和二阶段算法 Faster R-CNN/Mask R-CNN 进行了详细解读,但是其都属于 anchor-based 算法,随着 anchor-free 思路的兴起,出现了一些性能…https://zhuanlan.zhihu.com/p/358056615mmdetection最小复刻版(六):FCOS深入可视化分析 - 知乎0 概要论文名称: F原创 2021-12-20 19:26:22 · 1353 阅读 · 0 评论 -
focal loss for dense object detection
轻松掌握 MMDetection 中常用算法(一):RetinaNet 及配置详解 - 知乎文@ 0000070 前言在解读完 轻松掌握 MMDetection 训练和测试流程的相关系列文章后,相信大家对 MMDetection 框架训练和测试流程以及各个组件的内部抽象实现有了一定了解。本系列文章则从框架中已经实现的一些常…https://zhuanlan.zhihu.com/p/346198300mmdetection最小复刻版(二):RetinaNet和YoloV3分析 - 知乎上一篇文章主要是分析了原创 2021-12-18 14:02:25 · 446 阅读 · 0 评论 -
centernet: objects as points
轻松掌握 MMDetection 中常用算法(七):CenterNet - 知乎文@ 0000070 摘要 在大家的千呼万唤中,MMDetection 支持 CenterNet 了!! CenterNet 全称为 Objects as Points,因其极其简单优雅的设计、任务扩展性强、高速的推理速度、有竞争力的精度以及无需 NMS 后处理等优…https://zhuanlan.zhihu.com/p/374891478扔掉anchor!真正的CenterNet——Objects as Points论文解读原创 2021-12-16 19:26:35 · 2150 阅读 · 0 评论 -
cascade rcnn:delving into high quality object detection
轻松掌握 MMDetection 中常用算法(五):Cascade R-CNN - 知乎文@ 0000070 摘要本篇主要介绍目前主流常用的高性能目标检测算法中最广为人知的算法之一 Cascade R-CNN。Cascade R-CNN 来自论文 Cascade R-CNN: High Quality Object Detection and Instance Segmentation,主要 …https://zhuanlan.zhihu.com/p/360952172Cascade RCNN算法笔记_AI原创 2021-12-14 19:55:07 · 2619 阅读 · 0 评论 -
faster rcnn:towards real-time object detection with region proposal network
轻松掌握 MMDetection 中常用算法(二):Faster R-CNN|Mask R-CNN - 知乎文@ 0000070 前言在 轻松掌握 MMDetection 中常用算法(一):RetinaNet 及配置详解一文中,对经典 one-stage 目标检测算法 RetinaNet 以及相关配置参数进行了详细说明,本文解读经典 two-stage 算法 Faster R-CNN…https://zhuanlan.zhihu.com/p/349807581 faster-rcnn属于...原创 2021-12-14 19:22:58 · 4484 阅读 · 0 评论 -
Deep Learning of Binary Hash Codes for Fast Image Retrieval
Deep Learning of Binary Hash Codes for Fast Image Retrieval(快速图像检索)Abstract: 我们的想法是,当数据标签可用时,可以通过使用隐藏层来表示主导类标签的潜在概念来学习二进制代码。 CNN的使用还允许学习图像表示。 与其他需要配对输入进行二进制代码学习的监督方法不同,我们的方法以点对点的方式学习哈希码和图像表示,使其适用于大规...原创 2019-03-19 11:52:23 · 416 阅读 · 0 评论 -
Anytime Stereo Image Depth Estimation on Mobile Devices
Anytime Stereo(立体) Image Depth Estimation on Mobile Devices1. IntroductionDepth estimation from stereo camera images is important task for 3D scene reconstruction and understanding给定经过校正的立体图像对,两...原创 2019-03-19 11:51:10 · 1483 阅读 · 1 评论 -
SVDNet for Pedestrian retrieval
SVDNet for Pedestrian retrievalhttps://zhuanlan.zhihu.com/p/29326061Abstract: 如何更好的学习深度特征,对CNN的物理意义有一些思考1. Motivation 首先需要说明的是,SVDNet基于这样一个对CNN权向量的简单解读:假设CNN的一层网络,其输入是I,输出是O,权矩阵是W,那么O=W'*I运...原创 2019-03-18 10:37:34 · 503 阅读 · 0 评论 -
Grid rcnn
Grid rcnnAbstract: the grid rcnn captures the spatial information explicitly and enjoys the position sensitive property of fully convolutional architecture. Instead of using only two independent po...原创 2019-03-17 11:44:15 · 683 阅读 · 0 评论 -
Scale-Transferrable Object Detection
Scale-Transferrable Object Detection浅层的特征图更大,小目标识别需要足够大的feature map来提供精细的特征和做密集的采样,所以在浅层做small object,但是浅层的semtanic不够,pooling层不仅可以减少参数还可以扩大感受野。深层的semtanic够,但是feature map小,所以放大,对channel可以进行压缩。前三层...原创 2019-03-17 11:39:01 · 624 阅读 · 0 评论