鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
要说生活里最常见、最便民的AI应用技术,OCR(光学字符识别)当属其中之一。
寻常到日常办理各种业务时的身份证识别,前沿到自动驾驶车辆的路牌识别,都少不了它的加持。
作为一名开发者,各种OCR相关的需求自然也少不了:卡证识别、票据识别、汽车场景、教育场景文字识别……
那么,这个模型大小仅8.6M,没有GPU也能跑得动,还提供自定义训练到多硬件部署的全套开发套件的开源通用OCR项目,了解一下?
话不多说,先来看效果。
可以看到,无论文字是横排、还是竖排,这个超轻量模型都有不错的识别效果。
难度略高,且实际生活当中经常遇到的场景也不在话下:
那么,如果情况更复杂一点,这么小的模型能hold住吗?
毕竟,在实际应用场景中,图像中的文字难免存在字符弯曲、模糊等诸多问题。
比如,并不高清的路牌:
主体部分基本都识别无误,只有英文小字部分因为确实比较模糊,识别效果不太理想。
再看一张文字背景复杂的图像识别效果: