光学字符识别(OCR)技术已经使我们能够识别和扫描的文档和图像内读取的文本。OCR可以将只读文本转换为可编辑形式。可以进一步处理转换后的文本以进行诸如文本分析之类的操作。
在本文中,将展示如何对图像(PNG,JPG,BMP和GIF)执行OCR,以及如何使用Aspose.OCR for Java将图像转换为文本。
- 使用Java将图像转换为文本
- 使用Java转换具有单行文本的图像
目前,Java版Aspose.OCR升级到v20.5版,感兴趣的朋友可点击下载最新版。
使用Java将图像转换为文本
最常见的是,OCR的图像是扫描的文档,发票,收据,账单等的页面,其中文本由多行组成。在这种情况下,您需要从图像中检索整个文本。以下是使用Java版Aspose.OCR在具有多行文本的图像上执行OCR的步骤。
- 创建一个AsposeOcr 类的实例 。
- 通过传递图像的路径,使用AsposeOcr.recognizePage(String fullPath)方法将图像转换为文本。
- 将转换后的文本转换为字符串对象。
下面的代码示例演示如何使用Java对图像执行OCR并将图像转换为文本。
// The path to the documents directory. String dataDir = Utils.getSharedDataDir(PerformOCROnPage.class); // The image path String imagePath = d