端到端的票据类版面分析算法（一）

最新推荐文章于 2024-11-18 22:15:00 发布

原创

最新推荐文章于 2024-11-18 22:15:00 发布 · 7.6k 阅读

37 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #自然语言处理 #算法

提出两种端到端版面分析算法，旨在简化OCR后的复杂版面理解过程。一种基于xgboost分类，适用于固定版式；另一种基于seq2seq，适应自由拍照场景。通过数据增广策略减少标注成本。

端到端的OCR版面分析算法

OCR版面分析痛点
算法设计初衷
数据增广策略
两种端到端的方案
- 1、基于xgboost的版面分析算法
- 2、基于seq2seq的版面分析算法
结语

OCR版面分析痛点

当前OCR之后的版面分析工作大家都是规则写的，自己也深受规则之苦,看到ocr输出的一大堆文字和坐标就头皮发麻。最近受了chineseocr作者模板引擎的启发，做了两个端到端的版面分析算法，希望能够帮到各位ocrer。github

ocr输出

算法设计初衷

最开始的想法是在检测网络上增加类别判断，预测位置的同时加上box类别的判断，但是这样通用性就大大降低了,违背不干预原始的OCR算法的初衷，版面分析的算法应该和OCR算法无缝衔接，所以模型输入应该是OCR输出的box坐标和相应文本。
基于此，延伸出两个思路，一个是忽略box间的位置关系，直接将box坐标和文本编码,送入分类器，即基于xgboost的分类方案。另一个考虑box间的相互关系，将版面分析当成一种翻译任务，即基于seq2seq的翻译方案