鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
要说生活里最常见、最便民的AI应用技术,OCR(光学字符识别)当属其中之一。
寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌识别,都少不了它的加持。
作为一名开发者,各种OCR相关的需求自然也少不了:卡证识别、票据识别、汽车场景、教育场景文字识别……
那么,这个模型大小仅8.6M,没有GPU也能跑得动,还提供自定义训练到多硬件部署的全套开发套件的开源通用OCR项目,了解一下?
话不多说,先来看效果。


可以看到,无论文字是横排、还是竖排,这个超轻量模型都有不错的识别效果。
难度略高,且实际生活当中经常遇到的场景也不在话下:

那么,如果情况更复杂一点,这么小的模型能hold住吗?
毕竟,在实际应用场景中,图像中的文字难免存在字符弯曲、模糊等诸多问题。
比如,并不高清的路牌:

主体部分基本都识别无误,只有英文小字部分因为确实比较模糊,识别效果不太理想。
再看一张文字背景复杂的图像识别效果:

百度开源的PaddleOCR项目提供了一个8.6M的超轻量级中英文OCR模型,适用于多种硬件平台。模型包括4.1M的检测模型和4.5M的识别模型,基于MobileNetV3,支持自定义训练和多硬件部署。项目提供数据集、标注工具和模型训练、评估、预测的全流程解决方案。
最低0.47元/天 解锁文章
71

被折叠的 条评论
为什么被折叠?



