ocr是Optical Character Recognition的简写,就是光学字符识别技术。主要是对包含文本资料的图片进行识别,获取文本信息的技术。
目前tesseract-ocr这个工具可以很方便的在Windows、Linux、Mac下安装。
windows下的安装链接:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.1.20220118.exe
这个工具安装之后,需要设置环境变量TESSDATA_PREFIX,这个变量是设置tesseract安装目录下tessdata的目录位置。
为了在命令行下使用tesseract可执行程序,最好把tesseract-ocr安装路径加入Path环境变量中。
这样,我们在命令行下就可以使用tesseract