端到端的票据类版面分析算法(一)

提出两种端到端版面分析算法,旨在简化OCR后的复杂版面理解过程。一种基于xgboost分类,适用于固定版式;另一种基于seq2seq,适应自由拍照场景。通过数据增广策略减少标注成本。

OCR版面分析痛点

当前OCR之后的版面分析工作大家都是规则写的,自己也深受规则之苦,看到ocr输出的一大堆文字和坐标就头皮发麻。最近受了chineseocr作者模板引擎的启发,做了两个端到端的版面分析算法,希望能够帮到各位ocrer。github

ocr输出

算法设计初衷

最开始的想法是在检测网络上增加类别判断,预测位置的同时加上box类别的判断,但是这样通用性就大大降低了,违背不干预原始的OCR算法的初衷,版面分析的算法应该和OCR算法无缝衔接,所以模型输入应该是OCR输出的box坐标和相应文本。
基于此,延伸出两个思路,一个是忽略box间的位置关系,直接将box坐标和文本编码,送入分类器,即基于xgboost的分类方案。另一个考虑box间的相互关系,将版面分析当成一种翻译任务,即基于seq2seq的翻译方案

数据增广策略

其次标注数据不能太多,如果标注投入过大就有些得不偿失了,算法设计初衷就是希望只标注一些具有代表性的版面,因此增广策略就显得特别重要。增广策略有以下几条:

  • 随机扰动检测框坐标点1~3个像素
  • 随机切分检测框,并随机拆分文本
  • 随机替换 数字、日期等文本内容
  • 随机丢弃3~5检测框
    aug

评论 14
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值