Neil_baby
这个作者很懒,什么都没留下…
展开
-
tesstrain
为什么要使用tesstrain Tesseract固然很方便,便于使用,在开源OCR识别项目中属于翘楚。但是它也有局限,即tesseract4.0以后,图片样本都是自动生成的,根据开发者设置的字体,自动生成,然后加些噪声,干扰等,但是实际情况下,我们可能是有大量的文字图片,需要把我们手头的图片做为数据集,这个时候有另一个开源项目tesstrain可以供我们使用。 tesstrain如何使用 tesstrain github地址为https://github.co...原创 2020-07-25 16:26:10 · 607 阅读 · 0 评论 -
VGSL 介绍
VGSL是Variable-size Graph Specification Language的缩写,它定义了一种语法规范,用来表明你用Tesseract-OCR训练时的网络参数。听起来有些迷糊,容我慢慢道来。Wiki上给出的重头开始训练模型的命令为lstmtraining --debug_interval 0 \--traineddata ~/tesstutorial/engtra...原创 2020-03-04 18:09:01 · 575 阅读 · 0 评论 -
不同的Chinese traineddata区别
关于Chinese traineddata有至少如下几个: chi_sim chi_sim_vert chi_tra 它们之间的区别如何? chi_sim 包含了简化的常用的汉语和英文字符。 chi_tra 包含了繁体的常用汉语和英文字符。 chi_sim_vert是简体的常用汉语和英文字符,但是书写方向是从上到下。可以参考https://...原创 2020-02-25 10:59:10 · 6487 阅读 · 0 评论 -
Tesseract识别特殊符号"Ø"
文字识别过程中遇到问题,需要识别出直径符号“Ø”,用tesseract试了很多方法,都不行,最后用以下方法可以识别。首先需要注意的时:“Ø” 不是古希腊符号,而是拉丁文字,unicode编码是00d8,参见 https://www.compart.com/en/unicode/U+00D8, https://en.wikipedia.org/wiki/%C3%98#!/bin/bas...原创 2020-01-21 10:09:50 · 4431 阅读 · 2 评论 -
Tesseract 3.X 训练
Tesseract4.0 训练是基于LSTM + CTC,可以获得较高的准确率,而且Tesseract-ocr官网上也说了,Tesseract 3.X的训练方式目前保留,以后可能会废弃,所以看似好像这里介绍3.X好像是多余的,但是为了让Tesseract介绍更系统些,而且目前很多人也是在使用Tesseract 3.x在训练,所以这里再啰嗦下。Tesseract 3.X训练 ...原创 2019-03-13 18:10:50 · 551 阅读 · 0 评论 -
把Tesseract嵌入到OpenCV中
前面讲了如何编译Tesseract,实际上,较新版本的OpenCV中提供了很多文字识别的接口,也有相关的demo;而且这些接口用的要用到Tesseract.但是OpenCV官网上下载的编译好的OpenCV lib不含有这部分内容,因为这部分代码是在OpenCV contrib中的,所以我们如果要用OpenCV提供的文字识别功能,需要自己重新编译OpenCV.(OpenCV + Op...原创 2019-02-19 16:31:00 · 1307 阅读 · 0 评论 -
Tesseract编译
Linux上编译 可以参考https://www.cnblogs.com/zhishuai/p/7851977.html,我是大致按照这个步骤来的,即使有问题,搜索下应该都能解决,不难.windows上编译下载Tesseract源码https://github.com/tesseract-ocr/tesseract/tree/4.0.0,我这里用的是Tesseract...原创 2019-02-19 15:55:15 · 647 阅读 · 0 评论 -
Tesseract简介
最近在做一个OCR识别相关项目,前期花了不少时间,最终用Tesseract这个比较成熟的开源项目,在研究Tesseract的过程中走了一些弯路,目前识别结果还比较满意,现在准备每天抽些时间,把自己的一些心得整理起来,以供大家参考,因为我也是才研究一两个月,理解不是很到位,欢迎大家指正。我准备从以下几个方面来介绍 Tesseract简介 Tesseract编译 Windows ...原创 2019-02-15 15:56:40 · 3545 阅读 · 2 评论