一.比赛主题
本次比赛为"英特尔创新大师杯”深度学习挑战赛,其主要目的是OCR的识别https://tianchi.aliyun.com/competition/entrance/531902/introduction
二.简介
OCR (Optical Character Recognition,光学字符识别)是最早的计算机视觉任务之一。人类使用电子设备(图像采集装置)采集现实场景中打印的字符,然后通过检测字符的形状,用字符识别的方法将其翻译成计算机文字。随着技术的发展,OCR已经逐渐应用到社会的各种需求中。如今,我们可以在各个行业领域中看到OCR的广泛用途,包括:证件、车牌识别;物流分拣;智慧医疗;无纸化办公;文档检索等等。因此,在互联网时代中,OCR的应用算法,具有很大的商业价值。
在一些简单环境下,例如电子文档的识别,OCR的识别的准确率已经可以达到很高的水准。但是,OCR技术依然面临着很多难点,一些以往的算法在处理复杂图文场景里的文字时,依旧显得力不从心。因此,阿里云计算平台事业部团队联合英特尔举办此次OCR任务竞赛,旨在解决复杂场景中通用OCR识别的难点,以满足人们在不同行业应用中的需求。
三.比赛数据
四.baseline
https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.6.32eb46d7ionoME&postId=244091
采用的是百度paddlepaddle框架下的pdocr,baseline中包括数据的整理,还有训练需要的脚本格式
五.注意事项
1.建议优先采用Linux,win下或多或少会存在一些问题