计算机视觉对扫描文件分类 OCR

最新推荐文章于 2024-07-16 10:34:00 发布

原创

最新推荐文章于 2024-07-16 10:34:00 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #计算机视觉

通过计算机视觉对扫描文件分类

一种解决扫描文档分类问题的深度学习方法

在数字经济时代，银行、保险、治理、医疗、法律等部门仍在处理各种手写票据和扫描文件。在业务生命周期的后期，手动维护和分类这些文档变得非常繁琐。

对这些非机密文档进行简单而有意义的自动化处理，将使维护和利用信息变得容易的多，并显著减少手工工作。
在这里插入图片描述

本案例研究的目的是开发一个基于深度学习的解决方案，可以自动分类的文件

Data:
在这个案例研究中，我们将使用RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)数据集，该数据集包含16个类中的400,000张灰度图像，每个类包含25,000张图像。有32万张训练图像、4万张验证图像和4万张测试图像。图像的大小，使他们的最大尺寸不超过1000像素。这个数据集的大小超过200 GB。

Business-ML问题映射:
我们可以将业务问题映射为一个多类分类问题。当前的数据集中有16个类，我们需要根据被扫描文档的像素值来预测文档的类，这使得问题更加困难。但是等等，**为什么我们不能使用OCR来提取文本并应用NLP技术呢?**是的，我们对这个想法也很兴奋，但是低质量的扫描导致了文本提取的低质量。在实际的业务场景中，我们也无法控制扫描的质量，因此依赖OCR的模型可能会在适当的预处理后泛化能力较差。

KPI和业务约束:
数据集相当平衡。因此，我们选择准确性作为主要指标，微平均F1分数作为次要指标来惩罚分类错误的数据点。我们还使用了混淆度量来验证模型的性能。有一个中等的延迟需求，没有特定的可解释性需求。

我们能从文档的像素强度和大小中得

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。