演讲嘉宾 | 王晶(华为云人工智能高级算法工程师王晶)
出品 | AI科技大本营(ID:rgznai100)
近期,由 优快云 主办的 2019 中国AI 开发者大会(AI ProCon 2019)在北京举办。在计算机视觉技术专题,华为云OCR人工智能高级算法工程师王晶分享了“文字识别服务的技术实践、底层框架及应用场景”的主题演讲。
演讲的第一部分,他分享了文字检测和识别的基础知识以及难点和最新进展。第二部分是华为云文字识别服务关键能力、关键技术,以及落地过程中遇到的“坑”,这对其他人工智能产品甚至以数据为驱动的产品都具有实践参考意义。第三部分,他主要介绍了文字识别应用场景以及典型的落地方案
在王晶看来,虽然现在人工智能很火,但真正能落地的场景比较少,能大规模应用的场景更是少之又少,不过,文字识别服务在经典落地场景中显然有一席之地。

以下为王晶演讲内容实录,由AI科技大本营(ID:rgznai100)整理:
文字识别基本概述和最新进展
几年前我们开始做服务的时候心里还是比较忐忑的,因为文字识别听起来没有像人脸识别或者自动驾驶那么高大上,但是后来证明我们的选择是非常对的,现在这个产品基本上是整个华为云EI部门的明星产品,应用范围非常广。

先说一个概念,光学字符识别,英文简写是OCR。它的意思是将图片、PDF中文字转换为可编辑的文本文件。首先是检测过程,检测是指判断是否存在文字实例并给出具体位置的过程。其次是识别,当我们找到了文字块之后可以把它转化成具体的可编辑的内容。一般大家会把2014年前的方法统称为传统方法,依靠的是传统手工设计特征,第二个方法是深度学习,左边是把发票和文档转化成可编辑文字的实例。

文字检测和识别的难点非常多,这些图是我们做产品过程中遇到的实际场景。首先可以看到背景很多样,非常复杂,字体也可以有很多种,比如第一张字体相对标准一点,最后一张则是有一些艺术字的特点,颜色也可以很多,比如可以是黄色、白色、黑色等各种各样的颜色。方向依然可以是随意的,语言也不统一,中国遇到的大多数场景是汉字和英语,海外的很多场景包含了各种语言。最后是板式不固定,这个很直接。

还有一个难点是日常生活的指示栏、窗户、砖块、图标、花草、栅栏和指示牌等,这些物体和文字的纹理有非常大的相似性。比如移动logo这个图标和这边文字纹理特征非常相近,是有极大可能被检测出来的,但是大部分字符集成没有这个字符,极其容易造成误识别。还有就是图像本身的成像等问题也会造成干扰,比如反光、各种遮挡等,这些都会影响文字的检测和识别。

深度学习时代的文字检测和识别方法和物体检测类似,因为文字本身就是物体的一种,所以检测思路同样分为两种。相对规整文字是基于物体检测回归的方法,另一种是文字形状更加多变的,可以基于分割的方法,左上角这个论文核心的工作是就是把SSD的Anchor设计基于文字特点重新设计了。普通的物体检测Anchor设计偏于正方形或正方形按一定比例左右拉伸的变换。比如本次报告的标题就比较长,实际的场景可以非常长,比如超出我身后屏幕的容纳范围。
文字识别,非常容易想到的方法就是把字符一个个切割出来进行分

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



