PageSegMode in Tesseract

Tesseract的PageSegMode非常复杂,但一旦理解了其术语的含义,比如PSM_COL_FIND_ENABLED,就会变得清晰。在某些模式下,如PSM_SINGLE_COLUMN,会先尝试找到至少一列,否则后续步骤会失败。其他模式则直接进入识别阶段。特别地,PSM_SINGLE_COLUMN模式虽然也会调用某些检测,但其行为与其它模式不同,可能会使用不同的处理流程。而PSM_LINE_FIND_ENABLED宏对应的是单块垂直或水平对齐的文本处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

The PageSegMode in Tesseract is REALLY, REALLY, REALLY confusing!!

Well, it is kind of all make sense in the end, once one understand the exact meaning of the terminologies used in Tesseract Documentation, such as column, block, line

  • The so-called Automatic page segmentation is supposedly verified by PSM_COL_FIND_ENABLED macro, for 1,2,3 mode

    • inline bool PSM_COL_FIND_ENABLED(int pageseg_mode)
      {
      return pageseg_mode >= PSM_AUTO_OSD && pageseg_mode <= PSM_AUTO;
      }
  • which will incur Tesseract::AutoPageSeg then ColumnFinder::FindBlocks and most importantly TabFind::FindTabVectors , which in theory should find at least one column.
  • Otherwise ColumnFinder::MakeColumns later wi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值