- 博客(31)
- 收藏
- 关注
原创 【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
2022-12-23 14:11:04
1219
原创 【文字识别】SRN - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks
2022-12-23 14:01:20
674
原创 KIE - SDMGR
Spatial Dual-Modality Graph Reasoning for Key Information Extraction
2022-09-12 12:51:25
628
原创 KIE - Graph Convolution Network
Graph Convolution for Multimodal Information Extraction from Visually Rich Documents
2022-09-12 10:45:34
729
原创 目标检测笔记-CenterNet(Object as Point)
Object as Point输入Image I∈RW×H×3I \in R^{W \times H \times 3}I∈RW×H×3输出heatmap Y^∈[0,1]WR×HR×C\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}Y^∈[0,1]RW×RH×CR表示output stride,通常为4,输出对...
2020-02-08 21:13:31
724
原创 高级数据结构-堆和优先队列
2. 堆堆就是用数组实现的二叉树,所有它没有使用父指针或者子指针。堆根据“堆属性”来排序,“堆属性”决定了树中节点的位置。堆的常用方法:构建优先队列支持堆排序快速找出一个集合中的最小值(或者最大值)堆分为两种:最大堆和最小堆,两者的差别在于节点的排序方式。在最大堆中,父节点的值比每一个子节点的值都要大。在最小堆中,父节点的值比每一个子节点的值都要小。这就是所谓的“堆属性”,并且这...
2019-10-07 15:58:32
286
1
原创 高级数据结构-Trie树、并查集
1. Trie树Trie树,又称字典树或前缀树,是一种有序的、 用于统计、排序和存储字符串的数据结构,它 与二叉查找树不同,关键字不是直接保存在节点 中,而是由节点在树中的位置决定,每个节点 代表了一个字符,从第一层孩子节点到中间的 某个标记的节点代表了存储的字符串。 一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串 。一般情况下,不是所有的节点都有对应的字符 ...
2019-10-07 11:32:05
328
1
原创 C/C++字符串翻转
0.字符串定义C语言char类型 // char define str char str[] = "hello"; int len = strlen(str); char str_rev[len+1];C++ string类型 //string define str string str = "hello"; int len = str.s...
2019-09-03 20:55:04
417
原创 目标检测-OHEM(online hard example mining)
OHEM:online hard example mining论文地址:https://arxiv.org/abs/1604.03540难例挖掘是指,针对模型训练过程中导致损失值很大的一些样本(即使模型很大概率分类错误的样本),重新训练它们.维护一个错误分类样本池, 把每个batch训练数据中的出错率很大的样本放入该样本池中,当积累到一个batch以后,将这些样本放回网络重新训练.样本不平...
2019-05-28 21:24:32
871
原创 目标检测-Focal loss
focal loss论文地址:https://arxiv.org/pdf/1708.02002.pdf传统的交叉熵损失函数:定义pt如下。那么公式可以改写为我们可以用αt来改进交叉熵公式。αt是个(0,1)的数,定义和pt差不多。取α为0.25,当为正样本时α是0.25,权重小,负样本时α时0.75,权重就大一些。focal loss公式:我猜FL是个pt的单调递减函数。...
2019-05-28 21:22:07
753
1
原创 目标检测-SSD(Single Shot MultiBox Detector)
SSD : Single Shot MultiBox Detector论文地址:https://arxiv.org/abs/1512.02325网络结构与faster rcnn相比,该算法没有生成 proposal 的过程,这就极大提高了检测速度。针对不同大小的目标检测,传统的做法是先将图像转换成不同大小(图像金字塔),然后分别检测,最后将结果综合起来(NMS)。而SSD算法则利用不同卷...
2019-05-28 21:21:12
573
原创 目标检测-FPN(Feature Pyramid Network)
FPN(Feature Pyramid Network)论文地址:https://arxiv.org/pdf/1612.03144.pdf在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与stride通常是一对矛盾的东西,常用的网络结构对应的stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思...
2019-05-28 21:19:50
391
原创 ncnn的编译和使用
1.opencv要做图像识别首先编译opencv2.4。官网下载opencv2.41 unzip opencv-3.2.0.zip2 cd ~/opencv-3.2.03.编译opencv cd ~/opencv-3.2.0mkdir buildcd buildcmake …make -j8如果出现这个错误:CMakeFiles/Makefile2:890: recip...
2019-05-11 02:32:39
5594
原创 DeepLab系列论文阅读笔记
1.DeepLab v1论文:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFsDeeplab v1主体结构是参照VGG改造的。deeplab = 优化后的CNN+传统的CRF模型,CNN输出粗糙的分割结果,全连接CRF精化分割结果。新的上采样卷及方案:带孔的空洞卷积文章...
2019-04-26 00:41:06
999
原创 LeetCode-452 射击气球
在二维空间中有许多球形的气球。对于每个气球,提供的输入是水平方向上,气球直径的开始和结束坐标。由于它是水平的,所以y坐标并不重要,因此只要知道开始和结束的x坐标就足够了。开始坐标总是小于结束坐标。平面内最多存在104个气球。一支弓箭可以沿着x轴从不同点完全垂直地射出。在坐标x处射出一支箭,若有一个气球的直径的开始和结束坐标为 xstart,xend, 且满足 xstart ≤ x ≤ xend...
2019-04-06 00:58:19
659
原创 C++和算法
1. sizeofhttps://www.cnblogs.com/bigbigtree/p/3580585.htmlhttps://www.cnblogs.com/huolong-blog/p/7587711.html2. static关键字https://www.cnblogs.com/songdanzju/p/7422380.html3. const关键字https://www.c...
2019-04-06 00:57:52
190
原创 目标检测算法笔记
1.FPN(Feature Pyramid Network)论文地址:https://arxiv.org/pdf/1612.03144.pdf在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与stride通常是一对矛盾的东西,常用的网络结构对应的stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题...
2019-04-01 01:55:58
265
原创 图像特征点提取(SIFT,SURF,ORB)
1.SIFTSIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。1.SIFT算法具的特点图像的局部特征,对旋转、尺度缩放、亮度变化保持不变,对视角变化、仿射变换、噪声也保持一定程度的稳定性。2.SIFT特征检测的步骤1...
2019-03-26 16:24:04
19616
原创 自动驾驶数据集:Cityscapes和kitti
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。用于评测目标(机动车、非机动车、行人等)检测、目标跟踪、路面分割等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达15辆车和30个行人,还有各种程度的遮挡。KITTI数据集中,目标检测包括了车辆检测、行人检测...
2019-03-25 15:51:00
2978
原创 YOLOv3训练的过拟合问题
在训练YOLOv3的时候用了4个类别,car,bus,truck和tricycle,训练了2w轮,loss不到0.2但是在训练集和测试集分别测试mAP的时候缺出现了很大的差距。val result:class name: bus('ap', 0.22807790544644976)class name: car('ap', 0.63199984246435803)class name...
2019-03-23 15:48:46
10157
6
原创 Faster RCNN-4(训练过程和网络搭建)
1.Faster RCNN的训练过程4-Step Alternating Training. In this paper, we adopt a pragmatic 4-step training algorithm to learn shared features via alternating optimization. In the first step, we train the RPN...
2019-03-23 14:06:51
3665
1
原创 Faster RCNN-3(VGG和ResNet)
1.pytorch和numpy首先补充一点pytorch和numpy的函数import torchimport numpy as np# reshape:有返回值,所谓有返回值,即不对原始多维数组进行修改# resize:无返回值,所谓有返回值,即会对原始多维数组进行修改a = np.arange(0, 12, 1).reshape(2, 3, 2)print(a)a.resiz...
2019-03-23 01:22:08
8736
1
原创 Faster RCNN-2 (ROI Pooling和ROI Align)
RoI Pooling层是个池化层,负责收集proposal,把不同大小的proposal resize到相同的尺寸(例如7x7),并计算出proposal feature maps,送入后续网络。从下图中可以看到Rol pooling层有2个输入:原始的feature mapsRPN输出的proposal boxes(大小各不相同)caffe中faster_rcnn_test.pt...
2019-03-21 22:52:56
3835
原创 Deeplab训练自己的数据集
1.制作自己的数据集1.1 用labelme生成json文件lebelme安装:# Ubuntu 14.04 / Ubuntu 16.04# Python2# sudo apt-get install python-qt4 # PyQt4sudo apt-get install python-pyqt5 # PyQt5sudo pip install labelme# Pyth...
2019-03-21 17:08:35
2377
1
原创 Faster RCNN-1(RPN)
RPN的结构可以看到RPN网络实际分为2条线,上面一条通过softmax分类anchors获得foreground和background(检测目标是foreground),下面一条用于计算对于anchors的bounding box regression偏移量,以获得精确的proposal。而最后的Proposal层则负责综合foreground anchors和bounding box re...
2019-03-21 16:59:25
504
原创 Ubuntu16配置caffe和faster RCNN
主要参考了这篇文章https://blog.youkuaiyun.com/yhaolpz/article/details/71375762和https://blog.youkuaiyun.com/sinat_30071459/article/details/51332084,写的很好硬件是GTX1060的显卡1、安装依赖包 2、禁用 nouveau 3、配置环境变量 4、下载 CUDA 8.0 5、安装 CUDA...
2018-05-21 14:59:55
533
原创 matlab下训练faster rcnn出现的错误
一、出现的问题1、错误使用 containers.Map/values,此容器中不存在指定的键。出错 roidb_from_voc>attach_proposals (line 172)gt_classes = class_to_id.values({voc_rec.objects(valid_objects).class})答:你标注的目标种类与datasets/VOCd...
2018-05-21 14:59:09
6321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人