OCR
文章平均质量分 58
ouger爱编程
许多人这一生最大的挑战,就是接受自己的平凡。
想做就去做吧!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用paddleocr识别图片文本的一种方案
步骤就是这样,先ocr识别文本和区域,后面根据区域进行版面恢复。版面恢复部分根据自己的需要,可以省略。PS:突然有个问题,我发现wps+python-word处理的应该也还行,段落什么的也都分的很好,表格也识别对了。之前是觉得wps对生僻字识别的不好,所以没用,而且wps要钱hh。不过工程上的方法就是很多,只有达到效果就行,科研就不行,都是精益求精的。原创 2023-12-12 12:01:36 · 2549 阅读 · 0 评论 -
对于版面识别的一个疑问
这样版型的图,确实是可以直接用merge_para进行排序,可是这种排序是比较简单的,如果版型是双栏的,那就必须用agument-xy-cut进行region的排序,在对每一个region进行内部的merge_para。多思考还是有好处的,不要一上来就问别人,当然实在不知道就必须问了,此中的度,需要自己把握。下一步就是对自然段进行划分,即res字段里面的text_region进行merge_para,不过这时我产生了一个疑问,既然有merge_para了,前面对bbox的排序有必要吗?原创 2023-12-11 18:28:07 · 570 阅读 · 0 评论
分享