Tesseract-ocr 文字识别软件的应用（2）——Tesseract在VS 2013的中文字库的调用

最新推荐文章于 2024-09-06 22:24:46 发布

原创

最新推荐文章于 2024-09-06 22:24:46 发布 · 523 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#OCR #VS2013 #中文识别 #C++

本文介绍了如何在VS2013中配置和使用Tesseract OCR引擎进行中文识别，包括下载中文字库、安装字库到工程目录，并提供了测试识别的效果。在识别过程中，注意到识别中文所需时间较长，寻求优化建议。

Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本，目前已支持60多种语言（包括中文）。 Tesseract最初由HP公司开发，后来由Google维护。

大部分人都是希望能把自己的字库放在Tesseract调用，做成自己的开发包。网上找了很久，在C++环境下，中文字库或者其他的字库该怎么调用。大部分人云亦云，说不得不清不楚，因此这里特别给出。

一、下载Tesseract-ocr3.02库的中文字库，（地址https://download.youkuaiyun.com/download/pingdenghuli/10510421 ）

Tesseract-ocr3.02里面默认带着eng英文字库，中文字库需要自己下载，因此特意把所有文件打包（chi+eng+vs2013配置使用文件，有积分的支持一下，没有积分的发邮箱在评论，发给你）

二、新建工程文件photo1

参考《Tesseract-ocr

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pingdenghuli

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

VS2013上编译并使用Tesseract3.0.3.中文识别技术

Leo的历练之道

02-01

5660

我们有时候会进行中文识别功能。比如识别验证码，比如通过关键字符串来定位某些控件。这都需要识别图片上的字符。对于英文字符，现在很多开源库都能够很好的进行识别，效果显著。但是对于中文识别，库非常少，而且准确度特别差。国内有很多工具能够很好识别中文，但都是收费的。而免费的开源库中，Tesseract是性价比最好的(注意3.0以上版本才支持中文识别)。虽然这个库识别率不高，但这个强大的库增加了自我学习的功

开源 tesseract-ocr-文字识别软件

02-17

google 开源ocr文字识别软件，可以自己训练数据，内置39.5MB中文文字识别库chi_sim.traineddata.附加jTessBoxEditor训练软件

参与评论您还未登录，请先登录后发表或查看评论

【亲测免费】 Delphi7 使用 Tesseract 5.0 进行 OCR 开发资源包

gitblog_09796的博客

09-06

677

Delphi7 使用 Tesseract 5.0 进行 OCR 开发资源包去发现同类优质开源项目:https://gitcode.com/ 简介本资源包提供了在 Delphi7 环境下使用 Tesseract 5.0.0 (alpha) 进行 OCR（光学字符识别）的完整源代码。资源包中包含了所有必要的支持库以及中英文字库（更新至2020年3月28日），您可以直接下载并编译使用。该资源包能够实...

Tesseract-OCR 安装、中文识别与训练字库

weixin_42074832的博客

01-02

1万+

简介 OCR(Optical Character Recognition)：光学字符识别，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。 Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后由Google进行改进、修改bug、优化，重新发布。下载 1、Windows版本Tesseract各版本下载，本教程用的版本是tesseract-ocr-se

tesseract 训练---别人的东东

soleman007的博客

09-08

370

关于tesseract-ocr3的训练和使用众所周知，这是一个出色的字符识别软件。这个开源项目可以在http://code.google.com/p/tesseract-ocr/downloads/list下载。在使用时，建议使用3而不要使用2，因为一些原因，2虽然可以直接用在工程，但是由于一些显而易见的BUG和其他原因，多导致程序无法运行甚至崩溃。所以建议使用命令行版本的3 。 ...

Delphi7 用Tessercat5.0 进行OCR（含全部支持库及中英字库）

10-19

Delphi7 用Tessercat 5.0.0 (alpha) 进行OCR的源代码，含全部支持库及中英字库（20200328），可直接编译，文字识别的基本功能能够正常使用。

Tesseract-OCR5.5.0图片识文字

最新发布

02-13

用户可以使用Tesseract提供的API来进行图像的OCR处理，也可以通过命令行工具来实现简单的文字识别任务。此外，Tesseract还提供了易于使用的图形用户界面，方便用户无需编程背景也能使用其功能。 Tesseract的使用...

精选资源

tesseract-ocr-w64-setup-v5.3.0.20221214.exe

12-19

- **基本使用**：通过命令行输入`tesseract <input_image> <output_text>`即可进行基本的文字识别，例如`tesseract image.jpg output.txt`。 - **配置与参数**：Tesseract有许多可配置的参数，如`--psm`用于设置页面...

精选资源

tesseract-2.01.rar_01数字识别_OCR 数字_OCR文字识别_tesseract-ocr_数字OCR

07-15

使用Tesseract-OCR进行数字OCR时，用户需要遵循压缩包内的说明文件，通常包括编译指南、配置步骤以及如何调用API进行文字识别等操作。通过这些步骤，开发者可以将Tesseract集成到自己的应用程序中，实现自动识别图像...

Tesseract-OCR4.0引擎中文字库

01-10

**Tesseract OCR 4.0 引擎与中文字库详解** Tesseract OCR（Optical Character Recognition，光学字符识别）是一款由谷歌维护的开源OCR引擎，最初由HP开发并在1985年发布。它能够从图像中识别并转换文本，广泛应用...

Tesseract-OCR识别中文与训练字库实例

小夜

07-17

1529

转自：https://www.aliyun.com/jiaocheng/18274.html?spm=5176.100033.2.15.GFuia4 摘要：关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路。文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除。一、准备工作1、下载Tesseract-OCR引擎...

Delphi调用Tessercat 4.0 进行OCR识别（已打包全部Dll）

08-28

Delphi调用Google Tessercat 4.0 进行图像识别，只测试了基本的几个导出函数的使用，更多的导出函数请有需要的同学自己完成。

tesseract-ocr- 的字母数字识别

03-30

速度比较的快了，很不错的资源，可以识别字母和数字。

Tesseract-OCR识别中文与训练字库的使用方法

null111666的博客

03-15

1255

在 https://download.youkuaiyun.com/download/null111666/11022326 将字库文件下载下来，然后将其放在项目指定位置，系统能够访问到 ITesseract instance=new Tesseract(); instance.setDatapath("tessdata"); instance.setLanguage("chi_sim"); Str...

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

热门推荐

9点0频道

01-21

2万+

1，下载安装Tesseract-OCR 安装，链接地址https://digi.bib.uni-mannheim.de/tesseract/ 2，安装成功tesseract -v 注意：安装后，要添加系统环境变量 3，cmd指定目录到 cd C:\Work\BlogsTest\TestPic，要识别图片的文件夹识别：tesseract test.png result -l chi...

使用C#版Tesseract库

weixin_30634661的博客

04-26

4641

上一篇介绍了Tesseract库的使用（OCR库Tesseract初探），文末提到了Tesseract是用c/c++开发的，也有C#的开源版本，本篇介绍一下如何使用C#版的Tesseract。 C#版本源码下载地址：https://github.com/charlesw/tesseract 其实在vs中可以直接用NuGet工具进行下载：打开nuget，搜索tesseract，点安装即可。 ...

在VS2013的C#工程中使用Tesseract3.04

imxiangzi的专栏

05-08

3335

Tesseract3.04是Tesseract目前最新的版本，该开源项目的家已经从Google Code搬到了Github。今天在VS2013的C#项目中简单验证了Tesseract3.04的功能，在这里记录一下，供有兴趣的同学参考。1. 参考资源说明 Tesseract开源项目：https://github.com/tesseract-ocr/tesseract，目前该项目中包含Te...

VS2013 Update5 + Tesseract 3.04 API 编译配置

码客

10-15

1645

编译在C盘创建一个文件夹叫tesseract-build 切换到该文件夹下，输入下面命令git clone https://github.com/charlesw/tesseract-vs2012.git 打开 VS 2013 Developer Command Prompt （VS2013 开发人员命令提示）切换到C:\tesseract-build\tesseract-vs2012 执行下

【Tesseract】Tesseract API在VS 2013中的配置以及调用

al_qaeda8888的博客

05-31

305

想要在VS中使用Tesseract库，必须使用经过相对应的VS版本编译过的dll以及lib。比如在VS 2013中，就必须使用在VS 2013中编译过的Tesseract库。这里我给出经过VS 2013编译的Tesseract库，下载地址： http://pan.baidu.com/s/1o7JqXmU 解压后内容如下图，有了Tesseract库之后，...

Tesseract-OCR中文识别库的安装与使用指南

tesseract-ocr是一款开源的光学字符识别引擎，由HP公司于1985年开发，2006年开源，主要用于图像文件中的文字识别，是目前公认最优秀的开源OCR引擎之一。它支持多种操作系统平台，包括Windows、Linux、Mac OS等，并且...