文本检测
文章平均质量分 83
00000cj
计算机视觉,论文阅读记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DBNet++(TPAMI) 原理与代码解析
本文是对DBNet的改进,关于DBNet的介绍具体可见场景文本检测算法 可微分二值化DBNet原理与代码解析,本文新提出了一种自适应尺度融合模块Adaptive Scale Fusion(ASF)module来自适应地融合多尺度的特征,将ASF应用于分割网络,显著地增强了其检测不同尺度文本实例的能力。原创 2023-03-06 21:42:14 · 2827 阅读 · 4 评论 -
文本检测模型随机crop代码整理
PSENetdef random_crop(imgs, img_size): # imgs = [img, gt_text, training_mask] # imgs.extend(gt_kernels) h, w = imgs[0].shape[0:2] th, tw = img_size # 640, 640 if w == tw and h == th: return imgs if random.random() >原创 2021-05-28 12:07:02 · 476 阅读 · 0 评论 -
CTPN简述
我们通常看到别人在搭建VGG网络时,图像预处理的第一步会将图像的RGB分量分别减去[123.68, 116.78, 103.94]这三个参数。这三个参数是对应着ImageNet分类数据集中所有图像的R、G、B三个通到的均值分量。如果你要使用别人在ImageNet数据集上训练好的模型参数进行fine-train操作(也就是迁移学习)那么你需要在在图像预处理过程中减去这[123.68, 116.78, 103.94]三个分量,如果你是从头训练一个数据集(不使用在ImageNet上的预训练模型)那么就可以忽略这一原创 2021-04-25 00:05:54 · 790 阅读 · 0 评论 -
ICDAR文本检测的评价方法
import cv2from glob import globimport osdef show_img(in_img_name, in_img, resize_h=0): if resize_h: in_img = cv2.resize(in_img, (int(in_img.shape[1] / (in_img.shape[0] / resize_h)), resize_h)) cv2.imshow(in_img_name, in_img) cv2.w.原创 2020-12-06 19:18:41 · 2635 阅读 · 1 评论 -
场景文本检测算法 可微分二值化DBNet原理与代码解析
论文https://arxiv.org/abs/1911.08947代码https://github.com/WenmuZhou/DBNet.pytorch官方解读https://megvii.blog.youkuaiyun.com/article/details/103502283基于分割的文本检测方法后处理方法通常都是(1)设定固定阈值将分割模型得到的概率图转化为二值图(2)通过一些启发式方法例如像素聚类得到文本实例。本文的创新之处在于将二值化操作嵌入到分割网络中进行联合训练优化,图像中每点的阈...原创 2021-01-08 22:11:57 · 3824 阅读 · 1 评论 -
像素聚合网络PAN原理与代码解析
论文:https://arxiv.org/abs/1908.05900官方代码:https://github.com/whai362/pan_pp.pytorch像素聚合网络Pixel Aggregation Network是PSENet的改进版,依旧是segmentation-based文本检测方法,可以检测任意形状的文本。主要改进了PSENet速度慢的缺点,在CTW1500数据集上,PAN-320可以达到84.2FPS,同时还可以保证79.9%的F-measure。而PSENet-1s只有3.9原创 2020-10-24 16:37:29 · 3837 阅读 · 5 评论 -
PSENet原理与代码解析
原创 2020-10-21 10:40:22 · 4129 阅读 · 1 评论
分享