Tesseract-OCR Windows下不换行的问题研究

本文介绍了Tesseract-OCR识别文本时换行符显示的问题,并提供了具体的解决方案。通过修改源代码中的换行符设置,使得在Windows环境下能够正确显示换行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Tesseract-OCR 直接识别出的文字,用记事本打开会发现不会换行,但是用Notepad++打开却能看到换行。


其实这是因为Windows下的换行 结尾是要加 回车符 和换行符  也就是 \r  \n  。

而Unix等操作系统只需要\n就可以了。


知道了原理后 就好办了。

在Tesseract-OCR工程里找到ltrresultiterator.cpp

修改第36行如下:

namespace tesseract {

LTRResultIterator::LTRResultIterator(PAGE_RES* page_res, Tesseract* tesseract,
                                     int scale, int scaled_yres,
                                     int rect_left, int rect_top,
                                     int rect_width, int rect_height)
  : PageIterator(page_res, tesseract, scale, scaled_yres,
                 rect_left, rect_top, rect_width, rect_height),
    line_separator_("\r\n"),
    paragraph_separator_("\r\n") {
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值