使用MODI（Microsoft Office Document Imaging）识别中文，但无法区分段落

最新推荐文章于 2021-12-28 13:40:00 发布

转载最新推荐文章于 2021-12-28 13:40:00 发布 · 4.2k 阅读

文章标签：

#MODI #文字识别

OCR 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了使用Microsoft Office Document Imaging (MODI) 进行中文文档光学字符识别(OCR)的方法。文中提到MODI虽然能识别中文字符，但无法保留原文档中的段落和空格等格式。同时对比了Tesseract OCR的识别效果。

最近打算使用MODI（Microsoft Office Document Imaging）提供的接口识别简体中文，以实现一个简单的ocr功能，但在尝试过程中发现MODI识别出来的中文不包含段落以及空格等特殊字符，本来是打算使用tesseract-ocr的，识别出的文本就包括段落以及空格，但中文识别率较低，通过training也失败了。

具体代码如下：

   MODI.Document doc = new MODI.Document();
                doc.Create(img_Path);
                MODI.Image image;
                MODI.Layout layout;
                MODI.Word word;
                StringBuilder sbWord = new StringBuilder();
                doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true);  // 识别文字类型
                for (int i = 0; i < doc.Images.Count; i++)
                {
                    image = (MODI.Image)doc.Images[i];
                    layout = image.Layout;
                    sb.Append(layout.Text);
                }

layout.Text输出的是不包含段落的文本，如我识别以下图：

输出的结果是：

恩平市人民政府办公室文件思府办［ 2001 〕 10 号转发国务院办公厅关于实施 《 国家行政机关公文处理办法 》 涉及的几个具体问题的处理意见的通知各鹅人民坟府市篇农林场耳币府 i 蕊局以上平位：砚将‘国务院办公厅关于实施（国东行政机关公丈处理办法）沙及的几个具体问皿的处理启见 》 转发给你们诸认二 t 彻执行

无任何的段落识别，而我想要的效果是每一个段落都有一个换行或者空格