
OCR
文章平均质量分 76
viewcode
first level:code
展开
-
OCR学习及tesseract的一些测试
最近接触OCR,先收集一些资料,包括成熟软件、SDK、流行算法。1. 一个对现有OCR软件及SDK的总结,比较全面,包括支持平台、编程语言、支持字体语言、输出格式、相关链接等http://en.wikipedia.org/wiki/List_of_optical_character_recognition_software以此为索引,比较、选择你想要的OCR SDK。原创 2012-07-25 18:20:03 · 28300 阅读 · 1 评论 -
tesseract OCR的多语言,多字体字符识别
识别多种字体、多种语言的字符,在实际应用中是很常见的问题。经过测试,及查看tesseract3.01的源码,tesseract 3.01版本是不支持多语言、多种字体OCR识别的。tesseract3.01版本不支持新训练的数据,加入原有字符集,并不支持多个训练库的联合使用方式。如何利用tesseract进行多语言或多字体识别哪?一种方法是自己训练字符集,将所有的字体、语言的原创 2012-08-28 18:24:52 · 21814 阅读 · 11 评论 -
tesseract OCR Engine overview字符识别学习
原文: An Overview of the Tesseract OCR Engine 下载地址http://code.google.com/p/tesseract-ocr/wiki/DocumentationTesseract的识别步骤大致如下:1. 连通区域分析;2. 检测出字符区域区域(轮廓外形),以及子轮廓;3. 由字符轮廓,得出文本行,以及通过空格识别出单原创 2012-07-26 16:59:44 · 12760 阅读 · 3 评论 -
应用OpenCV进行OCR字符识别
opencv自带一个字符识别的例子,它的重点不是OCR字符识别,而主要是演示机器学习的应用。它应用的是UCI提供的字符数据(特征数据)。DAMILES在网上发布了一个应用OpenCV进行OCR的例子, http://blog.damiles.com/2008/11/basic-ocr-in-opencv/。这些例子都只能用于学习OpenCV或熟悉OCR的简单流程,因为它们与当前比较专业的O原创 2012-09-04 18:27:05 · 90347 阅读 · 8 评论 -
tesseract OCR训练新字体对图片的预处理和要求
同tesseract OCR识别对图片有要求一样,在训练新的字符集或新的字体时,对图片也有一定要求,符合要求的图片,能大大提高训练的效率。在图像处理方面,去除噪声,使训练的字符图片尽量连贯、清晰。其他方面,通常的要求如下:1. 在一幅图片内,字体统一,决不能将多种字体混合出现在一幅训练图片内;如果不是通过扫描文本获取的字符图片,这个条件很容易被忽视。2. 理想条件下,同种字体的字原创 2012-08-09 23:02:26 · 16842 阅读 · 16 评论