
ocr
文章平均质量分 52
猫猫与橙子
这个作者很懒,什么都没留下…
展开
-
ocr数据不够,怎么造数据
造字符识别数据原创 2024-06-20 10:48:41 · 424 阅读 · 0 评论 -
记录使用pytorch训练crnn
记录使用pytorch训练crnn原创 2024-06-04 15:32:20 · 554 阅读 · 0 评论 -
记录首次使用yolov8-obb
记录首次使用yolov8-obb遇到的问题原创 2024-02-02 18:11:13 · 1196 阅读 · 3 评论 -
跑通CLIP4STR,用于字符识别的预标签制作
跑通CLIP4STR,用于字符识别的预标签制作原创 2024-01-26 09:38:06 · 939 阅读 · 0 评论 -
各类证件的版面信息收集
了解各类版面信息原创 2023-10-16 13:51:31 · 540 阅读 · 0 评论 -
对paddleOCR中的字符识别模型转ONNX
paddle OCR中的CRNN模型转ONNX模型,附测试代码。原创 2023-10-12 11:50:22 · 1382 阅读 · 5 评论 -
【超分】A Benchmark for Chinese-English Scene Text Image Super-resolution
作者提出了一个真实场景下的中英文基准数据集,命名为Real-CE,目的是为了恢复低精度的中文字符原创 2023-10-10 15:12:22 · 1595 阅读 · 0 评论 -
使用yolov8进行文本行检测
yolov8不使用DFL原创 2023-07-21 18:10:25 · 4414 阅读 · 7 评论 -
使用ppocr突然退出问题
paddleocr推理突然退出原创 2023-07-18 14:56:28 · 572 阅读 · 0 评论 -
初次使用PPYOLOE-R
记录使用自己的数据,基于PaddleDetection工程,跑通PPYOLOE-R算法;原创 2023-06-09 18:12:14 · 2314 阅读 · 14 评论 -
证件扣取要点记录
证件扣取要点记录,扣取出证件阅读器上红外去背景图片中的卡证数据原创 2023-01-11 16:55:34 · 345 阅读 · 0 评论 -
使用Hog特征进行字母和数字的分类
使用传统机器学习算法进行字符识别原创 2023-01-04 17:34:36 · 1395 阅读 · 0 评论 -
判断图中有没有证件图片
判断图中有没有证件图片原创 2023-01-04 16:55:27 · 628 阅读 · 0 评论 -
怎样将paddlepaddleOCR的模型转换为pytorch模型
目的:将paddlepaddleocr的字符识别模型转换为pytorch的模型过程:mobilenetv3_small的小模型在转换过程中成功转换了backbone的参数,但是head(两个双向LSTM)转换失败,因为类别数不同,而LSTM中涉及到两个fc层两个lstm层,其中的fc层的参数和类别相关联,所以双向的LSTM参数无法进行转换;结果:只对backbone的参数进行了转换和拷贝原始paddlepaddle工程链接:https://github.com/PaddlePaddle/Padd原创 2020-08-15 11:12:27 · 7922 阅读 · 6 评论 -
安装paddlepaddle报错解决
安装paddlepython3 -m pip install paddlepaddle-gpu出现报错:g>(paddle::AnalysisConfig const&)----------------------Error Message Summary:----------------------ExternalError: Cuda error(35), CUDA driver version is insufficient for CUDA runtime原创 2020-08-06 11:21:18 · 7330 阅读 · 1 评论 -
用分类处理外文识别
使用分类的方法去处理标注有英文注解的外文;原创 2022-01-21 10:01:14 · 800 阅读 · 0 评论 -
集装箱字符识别资料收集
1.远东集装箱网http://www.fareastcontainers.com/infordata/containertypecode.html2.5分钟学习最详细集装箱代码https://zhuanlan.zhihu.com/p/522120603.海运集装箱校验码怎么计算?https://zhidao.baidu.com/question/233607470.html...原创 2021-04-16 09:44:02 · 310 阅读 · 0 评论 -
OCR:ECCV 2020 论文了解
《Sequential Deformation for Accurate Scene Text Detection》出处:北京国家信息科学技术研究中心;清华;韩国首尔现代汽车集团航空公司论文:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123740103.pdfAbstract由于文字尺寸、方向、形状和比例的多种多样,CNN对于这种几何变换能力有限;本文中,作者提出了一个序列变形方法对line-shape的场景文字进行建模原创 2021-03-24 17:31:52 · 737 阅读 · 0 评论 -
ocr 字符识别模型提速:《Aggregation Cross-Entropy for Sequence Recognition》
前言:最近在查找字符识别模型提速的方法,所以查看了该篇文章;South China University of Technology(华南理工大学)代码:https://github.com/summerlvsong/Aggregation-Cross-Entropy论文:https://arxiv.org/abs/1904.08364Abstract本文提出一个新方法:Aggregation cross-entroy(ACE) loss-聚合交叉熵lossACE loss特点:1.原创 2021-03-24 15:44:39 · 428 阅读 · 0 评论 -
Bert压缩:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》
前言:最近在想办法压缩有rnn的网络,所以查看了这篇文章出处:University of Waterloo(滑铁卢大学)Abstract本文作者认为轻量级基础网络在没有进行网络结构更改,额外的训练数据或额外特征以外,依然可以具备很强的竞争能力。作者就提出了使用BERT-大模型对BiLSTM进行蒸馏,得到的结果是与BERT相比,参数少了近100倍,推理时间提升了15倍;结论:该文的方法不进行详细的描述,总言之,作者在预测得分层使用了欧式距离进行了蒸馏,并使用了teacher网络对未知标签的数据原创 2021-03-24 15:36:47 · 449 阅读 · 0 评论 -
rnn蒸馏(1):RuntimeError: cudnn RNN backward can only be called in training mode
注:对于含有rnn的模型怎样设置参数不回传在模型蒸馏的常规训练中,大模型的参数都是设置不更新回传,使用self.model_T.eval()就可以达到固定大模型参数的效果;但是当模型网络结构中包含有rnn,例:class BidirectionalLSTM(nn.Module): def __init__(self, nIn, nHidden, nOut): super(BidirectionalLSTM, self).__init__() s原创 2021-03-11 10:26:45 · 1185 阅读 · 0 评论 -
ctc center-loss在字符识别形近字分类中的使用
运行深度学习框架:tensorflow使用时遇到的报错:W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /h原创 2021-03-11 10:46:51 · 1883 阅读 · 15 评论 -
图像增强之字符区域检测
1.train_transfroms = transforms.Compose([ transforms.ColorJitter(brightness=0.5), transforms.ToTensor()])原创 2021-02-04 15:13:55 · 372 阅读 · 1 评论 -
字符区域检测中常用loss
PAN网络中使用的loss(5)式中的4个loss函数,第一个是文本区域loss,第二个是核(kernel)区域loss,两个loss都是使用的diceloss;而第三个loss Lagg用于衡量文本实例和其对应kernel的loss,其作用是保证同一文本实例的kernel和文本实例内其他像素之间的距离<.第四个loss函数Ldis loss用于是不同文本实例的kernel的loss,其作用是保证任意两个kernel之间的距离>;目录1.dice loss1.Dice系.原创 2021-02-04 14:38:14 · 545 阅读 · 0 评论 -
关于怎样最佳利用机器训练模型
最近依然在做护照和身份字符识别模型的调优,前期的护照字符检测和识别模型已经可以使用;护照字符识别总的训练样本(公开数据集+护照数据集)有100多万,加入身份证字符识别数据后,数据量也达到了300多万,类别也从 最初的5000多类(汉字+标签符号+英文数字字母)上升到7000多类,这也加大了训练难度,在训练过程中,我也遇到过一些机器使用的问题,现将其总结如下:目录1.机器内存不够2.机器的gpu使用率不高(cpu操作瓶颈)3.网络结构太大,batch_size不能设置太大,该怎么办?4.读原创 2021-01-13 15:57:55 · 287 阅读 · 0 评论 -
【多方向文字检测】《efficient scene text detection with textual attention tower》
论文链接:https://arxiv.org/abs/2002.03741团队:西安电子科技大学 西澳大学 发布于:ICASSP(CCFB类)会议目录Abstract2.PROPOSED METHOD2.1 Architecture Overview2.2. Textual Attention Tower2.3 Loss function3.Experiments3.1 Benchmark Datasets and Data Augmentation3.2 ...原创 2020-09-09 10:47:04 · 627 阅读 · 0 评论 -
【字符检测DBNet】《Real-time scene Text Detection with Differentiable Binarization》
论文链接:https://arxiv.org/pdf/1911.08947.pdf工程链接:https://github.com/MhLiao/DB该算法的特点就是:后处理速度快,与PANNet相比,可以节省差不多一半的时间(在本人台式机cpu运行);0.算法的整体框架主要三个步骤:首先:图像输入特征提取主干,提取特征; 其次:特征金字塔上采样到相同的尺寸,并进行特征级联到特征F; ...原创 2020-08-04 17:50:27 · 3254 阅读 · 1 评论 -
图像增强之字符识别
字符识别常用图像增强:1.padding+crop作用:图像做padding,再随机crop,可以减少检测模型在检测过程中产生的检测结果不稳定,文字目标在整图位置中的偏移带来的影响;2.图像亮度对比度变化作用:亮度是一种对比出的效果,它受光线影响;对比度可以简单的解释为图像矩阵中像素的最大值和最小值之差。通过改变图片的对比度和亮度,可以减少识别效果受光线的影响;coding: def contrast_brightness(self, im: np.ndarra.原创 2020-07-29 15:03:10 · 2792 阅读 · 0 评论 -
如何优雅的阅读DBNet的训练代码
工程链接:https://github.com/MhLiao/DB最近在学习DBNet,然后由于本人想偷懒,然后使用了以上链接的工程(这样就不需要升级cuda和cudnn),最后发现该工程实在是写的太优雅了,完全不知道哪里是数据加载,哪里是测试,各种数据增强又在什么位置,所以现在就我的经验给大家盘点一下;遇到报错balance_cross_entropy_loss.py", line 49, in forward negative_loss, _ = torch.topk(negativ原创 2020-07-18 16:11:57 · 4305 阅读 · 18 评论 -
【字符识别 end-to-end】SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
1.文字识别中常用的编码解码框架可用于处理透视失真(perspective distortion)和曲线形状(curve shape)的文字,但是依然无法处理:图像模糊,明暗不均衡的图像,以及字符不完整的图像。2.作者认为当前的识别方法都是基于局部视觉特征,而不是采用的全局语义信息。基于以上两点,作者提出了语义增强的编码-解码框架用于识别低质量的场景文字。语义信息用于监督编码模块,初始化解码模块。同时作者将ASTER方法整合到给方法中来(作为一个范例),实现了端对端的识别。原创 2020-06-22 16:49:23 · 1493 阅读 · 0 评论 -
ocr小白入门CRNN
CRNN算法详解中文文字检测与识别的评测方法CTC算法详解Sequence Modeling With CTC相关论文:Connectionist Temporal Classification其他:CTPN原创 2020-04-16 15:53:22 · 1538 阅读 · 0 评论 -
vott使用
最近在标注实例分割的数据,使用vott的工具,将vott学习使用过程记录下:VoTT使用教程microsoft / VoTT原创 2020-04-16 15:14:22 · 2626 阅读 · 0 评论 -
【ocr:end to end】ASTER :An Attentional Scene Text Recognizer with Flexible Rectification
文中需要学习的知识点:Sequence to Sequence Learning with Neural Networkssequence to sequence model小记Beam Search Algorithm理解LSTM(通俗易懂版)Thin Plate Spline(薄板样条函数)薄板样条函数(Thin plate splines)的讨论与分析Posit...原创 2020-04-16 14:56:50 · 394 阅读 · 0 评论 -
ocr小白理解Aster算法---------什么是sequence2sequence
目录什么是seq2seq第一种seq2seq第二种seq2seqbeam-search算法参考文献什么是seq2seqseq2seq 模型就像一个翻译模型,输入是一个序列(比如一个英文句子),输出也是一个序列(比如该英文句子所对应的法文翻译)。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。第一种seq2seq第一次提出seq2seq应该是在论文...转载 2020-04-16 14:50:51 · 1227 阅读 · 0 评论 -
PSENet训练
目录1.数据标注问题2.数据中图片和标签的命名格式1.数据标注问题标注多边形的的顶点,使用逆时针标注,否则就需要使用代码对数据标签进行检测,纠正标注方向;在测试的时候,默认标注的是四边形,不是四边形,也会报错;2.数据中图片和标签的命名格式数据中图片和标签的命名格式格式最好符合ICDAR2015的训练样本的命名方式,否则就又需要更改源码,因为作者的源码中使用了很多...原创 2020-04-13 17:26:37 · 1715 阅读 · 8 评论 -
No module named 'warpctc_pytorch'
1.Traceback (most recent call last): File "/home/###/Downloads/softmare/pycharm-community-2018.3.2/helpers/pydev/pydevd.py", line 1741, in <module> main() File "/home/###/Downloads/so...原创 2020-04-07 17:33:55 · 3931 阅读 · 0 评论 -
字符识别——PSENet
最近在进行护照的字符识别,然后属ocr项目的小白,入手的网络结构PSENet:以下总结了一些好心人的贡献:OCR之PSE检测算法代码详解CV-Paper-文字检测-Shape Robust Text Detection PSENet详细记录超轻量中文OCR LSTM模型ncnn实现PSENet网络的dataset部分解析...原创 2020-03-30 14:11:40 · 751 阅读 · 0 评论