
目标检测
小镇大爱
这个作者很懒,什么都没留下…
展开
-
使用COCO API评估模型在COCO数据集上的结果(需要的检测结果格式)
https://zhuanlan.zhihu.com/p/134229574原创 2020-10-18 01:14:33 · 1419 阅读 · 0 评论 -
将自己的数据集转为coco数据集格式
打字麻烦,直接粘代码了(目标是将10.json转为coco格式)import jsonoir_json_path = 'instances_val2017.json'my_json_path = '10.json'save_json_path = 'instances_val2017_my.json'CATEGORIES = ['1_puffed_food', '2_puffed...原创 2020-04-22 00:19:36 · 4634 阅读 · 0 评论 -
Data Priming Network for Automatic Check-Out及pytorch实现
本文介绍了一个自助结账系统,该系统的主要原件是一个视觉项目计数,可以识别客户选择的商品的类别和数量。但是该系统的训练受到域适应问题的挑战,即训练数据是单独的物品,而测试图像则是物品的集合。为了解决这个问题,作者提出了一个data priming方法。首先使用一个pre-augmentation data priming,从训练图片中消除干扰的背景,并通过porn pruning 选择真实的图像。然...原创 2020-03-07 00:59:34 · 577 阅读 · 1 评论 -
Maskrcnn-Benchmark骨干网络分析
不论是在训练脚本文件 train_net.py 还是在测试脚本文件 test_net.py 中, 都调用了 build_detection_model(cfg) 函数来创建模型, 该函数封装了模型定义的内部细节, 使得我们可以通过cfg配置文件轻松的组合出不同类型的模型, 为了能够更好的了解模型的内部细节, 我们有必要知道这些模型是如何被定义, 又是如何组合到一起的, 为此我们需要对 Maskrc...原创 2020-03-06 22:27:07 · 914 阅读 · 0 评论 -
CornerNet: Detecting Objects as Paired Keypoints论文理解
在本文中,我们介绍了CornerNet,这是一种新的one stage目标检测方法,可以消除anchor boxes。 我们将一个目标物体检测为一对关键点——边界框的左上角和右下角。 我们使用单个卷积网络来预测同一物体类别的所有实例的左上角的热图,所有右下角的热图,以及每个检测到的角点的嵌入向量。 嵌入用于对属于同一目标的一对角点进行分组——训练网络以预测它们的类似嵌入。 我们的方法极大地简化了网...原创 2020-02-04 16:10:21 · 208 阅读 · 1 评论 -
Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 论文理解
Introduction目前场景文本检测分为两个分支,第一个分支基于通用对象检测器(SSD,YOLO 和DenseBox ),如TextBoxes ,FCRN 和EAST 等,它们直接预测候选边界框。第二个分支基于语义分割,它们生成分割图并通过后处理生成最终文本框。作者的动机主要来自两个观察结果:1)矩形可以由角点确定,无论矩形的大小,宽高比或方向如何; 2)区域分割图可以提供有效的文本位置信...原创 2020-02-03 12:18:33 · 469 阅读 · 0 评论 -
An Efficient and Accurate Scene Text Detector
在本文中,我们提出一个快且准确的场景文本检测算法,只有两步。这个算法利用全卷积网络模型来直接产生单词或文本行级别的预测,消除了冗余和慢的中间步骤。产生的文本预测,既可以是旋转的矩形也可以是四边形,这些预测结果送入非极大抑制中来得到最终的结果。本文工作得贡献是三部分:我们提出了一种包括两步得场景文本检测方法:FCN和NMS合并阶段。FCN直接产生文本区域,消除了中间步骤得冗余和耗时。算法...原创 2020-02-01 17:56:48 · 454 阅读 · 0 评论 -
Mask-RCNN
摘要:Mask RCNN可以看做是一个通用实例分割架构。 Mask RCNN以Faster RCNN原型,增加了一个分支用于分割任务。 Mask RCNN比Faster RCNN速度慢一些,达到了5fps。 可用于人的姿态估计等其他任务;首先,输入一幅你想处理的图片,然后进行对应的预处理操作,或者预处理后的图片;然后,将其输入到一个预训练好的神经网络中(ResNeXt等)获得对...原创 2020-01-27 00:53:32 · 915 阅读 · 0 评论 -
RCNN、Fast RCNN、Faster RCNN
目标检测是深度学习的一个重要应用,就是在图片中要将里面的物体识别出来,并标出物体的位置,一般需要经过两个步骤:1、分类,识别物体是什么2、定位,找出物体在哪里除了对单个物体进行检测,还要能支持对多个物体进行检测,如下图所示:但是由于物体的尺寸变化范围很大、摆放角度多变、姿态不定,而且物体有很多种类别,可以在图片中出现多种物体、出现在任意位置。因此,目标检测是一个比较复杂...原创 2020-01-25 01:37:27 · 515 阅读 · 0 评论 -
位置编码
由于注意力机制是不会保留序列位置信息的,因此需要该结构去用其他方法吸收位置信息。目前有三种主流的技术可以解决:用正弦位置编码(Sinusoidal Position Encoding) 学习位置向量(类似词向量) 相对位置表达(Relative Position Representations)MotivationRNN中,第一个"I"与第二个"I"的输出表征不同,因为用于生成...转载 2019-11-12 10:29:28 · 4089 阅读 · 2 评论 -
论文解读:Relation Networks for Object Detection
论文链接:https://arxiv.org/abs/1711.11575代码链接:https://github.com/msracver/Relation-Networks-for-Object-Detection这篇是CVPR 2018的文章,通过引入object的关联信息,在神经网络中对object的relations进行建模。主要贡献点有两条:1. 提出了一种relation...原创 2019-11-10 20:17:09 · 751 阅读 · 0 评论