使用MODI(Microsoft Office Document Imaging)识别中文,但无法区分段落

最近打算使用MODI(Microsoft Office Document Imaging)提供的接口识别简体中文,以实现一个简单的ocr功能,但在尝试过程中发现MODI识别出来的中文不包含段落以及空格等特殊字符,本来是打算使用tesseract-ocr的,识别出的文本就包括段落以及空格,但中文识别率较低,通过training也失败了。

具体代码如下:

复制代码
   MODI.Document doc = new MODI.Document();
                doc.Create(img_Path);
                MODI.Image image;
                MODI.Layout layout;
                MODI.Word word;
                StringBuilder sbWord = new StringBuilder();
                doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true, true);  // 识别文字类型
                for (int i = 0; i < doc.Images.Count; i++)
                {
                    image = (MODI.Image)doc.Images[i];
                    layout = image.Layout;
                    sb.Append(layout.Text);
                }
复制代码

layout.Text输出的是不包含段落的文本,如我识别以下图:

输出的结果是:

恩平市人民政府办公室文件思府办[ 2001 〕 10 号转发国务院办公厅关于实施 《 国家行政机关公文处理办法 》 涉及的几个具体问题的处理意见的通知各鹅人民坟府市篇农林场耳币府 i 蕊局以上平位:砚将‘国务院办公厅关于实施(国东行政机关公丈处理办法)沙及的几个具体问皿的处理启见 》 转发给你们诸认二 t 彻执行

无任何的段落识别,而我想要的效果是每一个段落都有一个换行或者空格

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值