首先,先将需要拷贝的文本内容部分打印成.mdi文件,然后使用OCR识别,进而将经过OCR识别的文本复制到WORD或者需要的地方;
具体过程:
微软的Office System 2003就带着这样的工具,如果你安装了Microsoft Office Document Imaging,就可以很方便地完成上述工作。在打开的PDF文档中单击菜单“文件-〉打印”,选择打印机为Office 2003自带的“Microsoft Office Document ImageWriter” 虚拟打印机,将需要的文本内容打印生成.MDI格式的文件。然后使用Microsoft Office工具中的Microsoft Office Document Imaging 打开此.mdi文档,点击菜单“工具-〉使用OCR识别文本”就能够还原原来的文本。
此方法同样适用于其它不能拷贝文本内容的地方。
本文介绍了一种通过将PDF文档转换为MDI格式,再利用Microsoft Office Document Imaging进行OCR识别的方法来提取不可复制的文本内容。该方法同样适用于其他类型的文档。
1923

被折叠的 条评论
为什么被折叠?



