
Tesseract OCR
5guo
会得不多
展开
-
Tesseract OCR的训练方法
网上有关于很多Tesseract OCR的训练文章,我kanl原创 2014-08-07 15:19:30 · 1299 阅读 · 2 评论 -
Tesseract OCR入门
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。 Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.01. 项目地址为:http://code.google.com/p/转载 2014-08-08 14:32:39 · 742 阅读 · 0 评论 -
tesseract OCR Engine overview字符识别学习
Tesseract的识别步骤大致如下: 1. 连通区域分析; 2. 检测出字符区域区域(轮廓外形),以及子轮廓; 3. 由字符轮廓,得出文本行,以及通过空格识别出单词,通过字符单元分割出单个字符,而对百分号的文本(Proportional text)通过fuzzy空格来分割为单词; 4. 每个单词进行分析,采用自适应分类器,分类器有学习能力,先分析的且满足条件的字母也作为训转载 2014-08-12 15:34:36 · 1004 阅读 · 0 评论