- 博客(20)
- 收藏
- 关注
翻译 git学习笔记
git创建版本库:git init初始化一个git仓库,git add <file>可反复使用,添加多个文件,git commit -m <message>完成。git工作区状态查看: git status查看工作区当前状态,git diff查看修改内容。git版本回退:git reset更改版本,git reset --hard Head^(commit_id)回退到上一个版本,git log查看提交历史,以便确定回退到哪个版本,git reflog查看命令历史,以便确定要回到
2020-09-16 15:52:58
136
翻译 Conditional Convolutions for Instance Segmentation
用于实例分割的条件卷积摘要提出了有效的实例分割架构,叫做CondInst。目前表现优秀的实例分割方法如Mask-RCNN依赖于ROI操作来获得最终的实例mask。相反,我们从一个新的视角解决实例分割。取代使用实例化的RoIs作为固定权重网络的输入,我们使用一个动态的实例感知网络,基于实例。CondInst有两个优势:1)使用全卷积网络解决实例分割问题,无需RoI裁剪和特征对齐。2)由于动态生成的条件卷积大幅提升了容量,mask head可以变得十分紧凑(如3三个卷积层,每个只有8个通道),导致显著更快的
2020-08-28 21:29:39
1145
原创 TextRay阅读笔记
TextRay:Contour-based Geometric Modeling for Arbitrary-shaped Scene Text Detection基于轮廓的几何建模用于任意形状场景文本检测摘要提出了一种任意形状文本检测方法,叫做TextRay,可以自顶向下进行基于轮廓的几何建模和几何参数学习通过一个单镜头anchor-free的架构。几何建模在极坐标系下进行,采用形状空间和参数空间的双向映射方案,编码复杂的几何布局成为统一的表示形式。为了更有效的学习表示,设计了一个中心加权的训练策略和
2020-08-26 14:36:19
1020
1
原创 CharNet阅读笔记
摘要近期开发联合自然场景检测和识别的统一架构取得了很多进展,但是现存的联合方法大部分是包含ROI pooling的两阶段架构,会降低识别任务的性能。在这项工作中,我们提出了卷积字符网络,叫做CharNet,是一个一阶段的模型,可以同时处理两个任务,我们利用字符作为基础元素,允许我们克服现有尝试基于RNN的识别分支方法的主要困难。此外,我们开发了迭代字符检测方法可以将从合成数据集学到的字符检测能力传递到真实数据集上。这些技术提升导致一个简单,紧凑且功能强大的一阶段模型,可靠的在多方向和弯曲文本上工作。我们在
2020-08-17 19:29:26
345
1
原创 Mask TextSpotter v3阅读笔记
Mask Text Spotter v3:分割建议网络用于健壮的场景文本端到端识别。摘要大部分现存的任意形状文本检测识别器使用RPN生产proposals。RPN高度依赖手工设计的anchors并且他的建议是用轴对齐的矩形表示。前者在处理极端长宽比和不规则形状的文本实例时较为困难,后者通常在一个建议中包含多个相邻的文本实例,在密集的多方向文本的情况下。为了解决这些问题,我们提出了Mask Text Spotter v3,一个端到端可训练的场景文本识别器采用了Segmentation Proposal
2020-08-10 17:42:01
2594
2
原创 Deep Relational Reasoning Graph Network for Arbitray shape Text Detection阅读笔记
Deep Relational Reasoning Graph Network for Arbitrary shape Text Detection深度关系推理图网络用于任意形状文本检测摘要提出了一种新颖的统一关系推理图网络用于任意形状文本检测。在我们的方法中,一个新颖的局部图连接一个文本建议模型(CNN)和一个深度关系推理网络(GCN)使得我们的网络端到端可训练。更具体的说,每一个文本实例将被分成一系列小的矩形组件,小的矩形组件的几何特征(高度,宽度,方向)通过我们的文本建议模型估计。通过几何特征,
2020-08-07 13:11:54
519
原创 All You Need Is Boundary阅读笔记
不同于现存的方法将文本检测视为边框提取或实例分割,我们在每一个文本实例的边界上定位了一系列点。通过这些边界点,我们建立了一个简单有效的架构用于端到端文本识别,可以阅读任意形状的文本。文本检测和识别之间具有相关性。提出了一种端到端的可训练网络用于任意形状文本识别,无需字符级注释,取代检测一个矩形边框,我们的检测通过定义文本实例的边界来完成。更具体地说,我们的检测目标是预测一组边界点,其可以更灵活的描述场景文本的形状。使用边界点对于建立端到端OCR系统有三个优势1)不规则文本区域的CNN特征可以使用边界点更
2020-08-05 20:29:21
498
原创 TextPerceptron阅读笔记
Text perceptron:Towards End-to-End Arbitrary-Shaped Text Spotting摘要:检测的结果可能不适用于后续的识别模块因为(1)识别任意形状文本仍然有挑战性(2)文本检测和文本识别中普遍不可训练的管道导致不佳表现。具体的,Text perceptron首先采用一个有效的基于分割的文本检测器学习潜在文本阅读顺序和边界信息。然后,一个新颖的Shape Transform Module(STM)设计用于将检测到的特征区域转换没有额外参数的规则形态。介绍:常
2020-08-03 17:36:20
701
2
转载 Pytorch分布式训练
使用单个GPU:pytorch.cuda用于设置和运行CUDA操作,会跟踪当前选定的GPU,并且将分配的所有CUDA张量默认在该设备上创建。所选设备可用torch.cuda.device更改。使用torch.cuda.is_available()判断当前环境是否可以是否可以使用GPU。当GPU可用时,可以使用torch.device()创建一个torch.device对象,例如torch.device('cuda')或使用torch.device('cuda:0')指定GPU,该对象可以将张量移动到移动
2020-07-30 13:19:06
328
原创 What Is Wrong With Scene Text Recognition Model Comparisions阅读笔记
场景文本识别:由于训练数据集和评估数据集的选择不一致,整体和公平的比较在该领域出现了很大的缺失。三个贡献:(1)检查了不一致的训练和评估数据集,以及不一致导致的性能茶橘。(2)提出了一种统一的4阶段STR架构,大多数STR模型可以放入。使用这个框架可以对以前提出的模块进行扩展评估,也可以发现以前没有研究过的模块组合。(3)从准确率,速度和内存需求分析模块对性能的贡献,在一个一致的训练级和评测级上。这样的分析清除了当前比较的障碍,了解现有模块的性能。我们的代码是公开可用的。介绍:先前的方法提出了多阶段的通
2020-07-29 14:23:10
445
原创 CRAFTS阅读笔记
Character Region Attention For Text Spotting典型的结构将识别和检测模块作为两个分支,使用RoI pooling共享视觉特征。然而,存在一种建立更好的连接方式,使用基于attention的解码器的识别器和表示字符区域空间信息的检测器。这是可能的因为两个模块共享一个共同的子任务:定位字符区域的位置。基于这个视角,我们提出了紧耦合的单通道模型。这个架构通过在识别器中利用检测阶段的输出并且在检测阶段传播识别误差行程。character score map帮助识别器更好的
2020-07-28 18:32:33
788
原创 ContourNet阅读笔记
关注于false positives和large scale variance。提出了contourNet,有效解决以上两个问题。(1)尺度无关的Adaptive-RPN,通过关注predicted和ground-truth之间的IoU生成proposals。(2)Local Orthogonal Texture-aware Module从两个方向建模,使用contour points集合表示文本区域考虑到强单向性或弱正交性会引起误false positives介绍:颜色、纹理、尺度变化是场景文本特
2020-07-27 23:27:49
666
原创 Batch Normalization作用
Batch NormalizationBatch规范化。通过mini-batch对相应的activation做规范化操作。用于activation set。在CNN中,应作用在非线性映射之前,即对x=Wu+bx = Wu +bx=Wu+b做规范化。统计机器学习中的经典假设:源空间和目标空间的数据分布是一致的。防止梯度弥散。加快训练速度。...
2020-07-27 11:24:53
151
原创 DB阅读笔记
采用可微二值化的实时场景文本检测对于基于分割的方法来说,二值化的后处理过程是必要的,将分割方法产生的概率图转换成文本区域。在本篇文章中,我们提出了一个模型叫Differentiable Binarization...
2020-07-26 20:06:04
392
原创 PANNet阅读笔记
使用像素聚合网络的有效准确的任意形状文本检测器文本检测 两个挑战:1.速度和准确率2.建模任意形状文本最近,一些方法提出用于应对任意形状文本检测,但是在整个pipeline中极少考虑速度。提出了一种高效准确的任意形状文本检测器使用一个计算成本低的分割head和一个可学习的后处理过程。称作像素聚合网络。更具体的说,分割头由特征金字塔增强模块Feature Pyramid Enhancement Module(FPEM)和特征融合模块Feature Fusion Module(FFM)。FPEM是一个级联
2020-07-24 20:41:06
3572
4
原创 LOMO阅读笔记
Look More Than Once:一个准确的任意形状文本检测器受限于CNNs的感受野和矩形或四边形边框的简单表示形式,先前的方法在处理长文本和弯曲文本时表现效果不好。为了解决这两个问题,提出了一种新的文本检测器LOMO,多次逐步定位文本。LOMO由三个部分组成:一个直接检测器DR,一个迭代优化模块IRM,一个形状表示模块SEM。首先,由DR分支生成一个四边形的文本建议。接下来,IRM基于初步的建议通过迭代优化逐步感知整个长文本。最后,SEM用于重建不规则文本更精确的表示通过考虑文本实例的几何属性,
2020-07-24 15:27:13
320
原创 PyTorch笔记 Dataset和Dataloader
在PyTorch中,数据集会用一个类来表示,在训练时用Dataloader产生一个batch的数据。Dataset是pytorch中用来表示数据集的一个抽象类。Dataloader作为一个迭代器。Dataset:至少覆盖写下面两个方法,返回数据前可以进行适当的处理1__len__:数据集大小2__getitem__:实现这个方法后,可以通过下标的方式(dataset[i])获得i个数据DataLoader:迭代器,最基本的使用是传入一个Dataset对象,它就会根据参数batch_size生成一
2020-07-23 23:23:36
214
原创 CRAFT阅读笔记
Character Region Awareness for Text Detection字符区域注意的文本检测介绍:可选择的,字符级的关注对于解决弯曲文本有许多好处,通过一个自底向上的方式连接字符。大部分文本数据集没有提供字符级的注释,而获取字符级的注释代价十分昂贵。本文中提出了一个新颖的文本检测其定位单个字符区域,并将检测的字符连接成一个文本实例。卷积神经网络 产生 字符区域得分 和关联得分。字符区域得分用于定位独立字符,关联的分将字符组成一个实例。提出了一个弱监督框架,在现有的单词级的数据
2020-07-23 22:05:24
995
原创 EAST论文总结
架构简单,专注于loss函数和网络架构的设计。在ICDAR15, COCO-Text,MSRA-TD500上进行实验,表明体术的方法在准确率和效率上都最为先进,在ICDAR15数据集上,算法实现了F-score 0.7820和13.2的fps在720p的分辨率下。文本检测任务的核心是设计区分文本和背景的特征。传统方法手工提取特征,深度学习方法直接从训练数据中学习有效的特征。现有方法大多有许多阶段,准确率和效率不佳。本文中,提出一个快且准确的场景文本检测通道,仅由两个通道构成。通道利用全卷积网络FCN模型
2020-07-22 15:49:40
276
翻译 论文翻译:自然场景文本检测与识别综述
论文翻译:自然场景文本检测与识别综述欢迎使用Markdown编辑器引言介绍功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学
2020-07-22 14:02:23
2176
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人