AI实战】手把手教你文字识别(检测篇二:AdvancedEAST、PixelLink方法)

本文详细介绍如何使用AdvancedEAST和PixelLink两种深度学习方法进行文本检测,包括模型下载、环境配置、检测流程及接口封装,适合希望掌握复杂场景下文本识别技术的读者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

感觉作者非常不错,把自己的东西奉献出来,大家可以自学,另外自学困难可以找原创作者

7d06d49fe7d63d44d973cd7a06c29a542d8.jpg

自然场景下的文字检测是深度学习的重要应用,在之前的文章中已经介绍过了在简单场景、复杂场景下的文字检测方法,包括MSER+NMS、CTPN、SegLink、EAST等方法,详见文章:

 

【AI实战】手把手教你文字识别(检测篇一:  MSER、CTPN、SegLink、EAST方法)

今天将继续介绍复杂场景下基于深度学习的文本检测方法,手把手教你如何使用AdvancedEAST、PixelLink进行文本检测。

1、AdvancedEAST方法实战
在上一篇文本检测的AI实战文章中,介绍了EAST检测方式,取得了不错的检测效果,但是在长文本预测中效果还不是很理想。于是,有大牛对EAST检测方法进行了改进,获得了比EAST更好的预测准确性(特别是在长文本上),并开源了源代码,这就是AdvancedEAST方法。网络结构如下:

953c7dbb6c6e4b616259cf4d7da6d682e45.jpg

AdvancedEAST的网络结构与EAST相似(EAST技术原理详见文章:大话文本检测经典模型EAST),但采用了VGG作为网络主干结构,基于Keras编写,在特征提取层中增加了后面卷积层的通道数量,对后处理方法也进行了优化。下面动手来试试AdvancedEAST的实际检测效果吧。
(1)下载源代码

e33f6c2db0ce83c17f7e478a61bdcba48a9.jpg

首先,在github上下载AdvancedEAST源代码(https://github.com/huoyijie/AdvancedEAST),可直接下载成zip压缩包或者git克隆

 

git clone https://github.com/huoyijie/AdvancedEAST.git

(2)下载模型文件
下载AdvancedEAST预训练好的模型,下载链接: https://pan.baidu.com/s/1KO7tR_MW767ggmbTjIJpuQ 提取码: kpm2
创建文件夹saved_model,将下载后的模型文件解压后放到里面

7028fd302ab7e180a507c70a7c7eb98cb88.jpg

修改cfg.py文件里面的train_task_id,将该id修改与下载的预训练模型一致,以便于在执行程序时,可自动加载模型,修改如下:

 

train_task_id = ‘3T736’

下载keras的VGG预训练模型,因为AdvancedEAST使用了VGG作为网络的主干结构,因此,在调用keras时会加载VGG预训练模型,下载地址为https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5,然后放到keras加载模型的默认路径,目录如下:

~/.keras/model

如果没有手动下载,那么在加载keras的VGG模型时,程序也会自动下载,但一般速度会很慢,经常会超时

(3)准备基础环境
AdvancedEAST依赖于以下的基础环境,使用conda或pip进行安装准备。

  • python 3.6.3+
  • tensorflow-gpu 1.5.0+(or tensorflow 1.5.0+)
  • keras 2.1.4+
  • numpy 1.14.1+
  • tqdm 4.19.7+

(4)AdvancedEAST检测文本
执行python predict.py进行文本检测

124988b0b4465e740a603e0d13f8273fe4b.jpg

默认读取项目自带的demo/012.png文件,进行检测

8fdd29d03b4020b6ca1abad56649ae16eae.jpg

检测后生成以下文件

107a17d370109fdc2529091fff88097266e.jpg

其中,012.png_act.jpg是检测过程的结果

e5dd16a14b4b45607c2e12f4a4524cba197.jpg

012.png_predict.jpg是检测出最终文本框的圈定结果

9b5dc39d94e1116e0aafc666aca6c88adab.jpg

012.txt是检测文本框的位置坐标(4个顶点)

df509317f0c508ab80f3ecf340908539740.jpg

在执行模型时,其中会有少部分检测结果是不完整的(边框少于4个顶点),默认会显示出来

ad327b02823dd6ed4c74461195ae748c91b.jpg

可通过在predict.py的源代码中,让其保持静默(不提示不完整的检测结果),修改最后一行为

 

predict(east_detect, img_path, threshold, quiet=True)

如果要检测指定的图片,在执行python predict.py时,可通过增加参数指定图片路径。另外,还可指定阈值,即在做像素分类判断是否为文本的阈值,默认为0.9。执行命令如下:

python predict.py --path=/data/work/tensorflow/data/icdar_datasets/ICDAR2015/ch4_test_images/img_364.jpg --threshold=0.9

 

0eda2c4c57abdea92592a5ac6b6430d4217.jpg

 

执行效果如下:

ab6442213a0dc0ce00ce552efc83d83439a.jpg

 

 

(5)AdvancedEAST接口封装
为了方便其它程序调用AdvancedEAST的文本检测能力,在predict.py的基础上进行代码修改,对AdvancedEAST进行接口封装,核心代码如下:

2、Pixel Link方法实战
前面介绍的文本检测方法,一般都是执行两个预测:通过分类判断是文本/非文本,通过回归确定边界框的位置和角度。其中,回归的耗时比分类要多得多,而PixelLink(像素连接)方法则全部都是通过“分类”的方式实现文本/非文本的判断,并同时给出文本框的位置和角度,具体技术原理详见之前的文章:大话文本检测经典模型PixelLink
PixelLink的整体框架如下图:

9cdeffd04a1b51dee4142bba1db3d7d3c0f.jpg

下面介绍如何使用PixelLink模型来检测文字。
(1)下载源代码和模型

87cdd6067609f5855653b36bed949c2dba2.jpg

首先,在github上下载PixelLink源代码(https://github.com/ZJULearning/pixel_link),可直接下载成zip压缩包或者git克隆

 

git clone https://github.com/ZJULearning/pixel_link.git

下载pylib,下载路径为https://github.com/dengdan/pylib/tree/e749559c9a4bcee3339081ec2d159a6dcf41636e ,解压后将src目录中的util文件夹放到pylib目录下面,然后添加到环境变量,在test_pixel_link.py , test_pixel_link_on_any_image.py, visualize_detection_result.py,  datasets/dataset_utils.py的前面加上

或者在当前窗口执行以下命令,或在 /etc/profile,~/.bashrc 文件中添加以下命令

export PYTHONPATH=xx:$PYTHONPATH

下载基于IC15数据集预训练好的模型,作者提供了两个预训练好的模型PixelLink + VGG16 4s (下载地址 https://pan.baidu.com/s/1jsOc-cutC4GyF-wMMyj5-w),PixelLink + VGG16 2s(下载地址 https://pan.baidu.com/s/1asSFsRSgviU2GnvGt2lAUw)

新建文件夹models/4s和models/2s,解压模型压缩文件,将两个模型放入到相应的目录下,方便进行调用

3323a067146c82b85068d06f3f4f93e7dfd.jpg

 

(2)安装基础环境
在下载的源代码文件中pixel_link_env.txt文件提供了conda基础环境安装包,其中,由于现在清华的conda镜像源已停止服务,于是将其替换为中科大的conda镜像源,修改后的依赖基础环境如下:

使用以下命令创建pixel_link的conda虚拟环境和安装基础依赖包

conda env create --file pixel_link_env.txt

 

e6ce85259c0114ca0c8aa8eeb87b5b3a9b6.jpg

完成基础环境包安装之后,即可使用以下命令切换到pixel_link虚拟环境,在里面执行相应的操作

 

source activate pixel_link

该源代码提供基础环境是基于python2版本的,如果自己之前已安装了相应的基础环境,即可直接使用,其中,要特别注意的是如果是使用python3,则需要对以下脚本进行改造:

  • 修改test_pixel_link.py第94行、第156行、第164行、第166行,在print后面加上括号
  • 修改datasets/dataset_util.py第112行,在print后面加上括号
  • 修改pylib/util/plt.py第174行,在print后面加上括号
  • 修改pylib/util/img.py第8行,在print后面加上括号
  • 修改pylib/util/proc.py第29行、第30行,在print后面加上括号。第35行,在raise后面加上括号
  • 修改pylib/util/thread_.py第39行,在raise后面加上括号
  • 修改pylib/util/caffe_.py第29行、第46行、第47行、第50行,在print后面加上括号
  • 修改pixel_link.py第187行,在raise后面加上括号
  • 修改pylib/util/tf.py第46行,将xrange改为range
  • 修改models/4s/config.py第153行,将xrange改为range
  • 修改pixel_link.py第257行、第353行,将xrange改为range
  • 由于在python3中没有cPickle,在pylib/util/io_.py中,第11行,将import cPickle as pkl改为import _pickle as pkl
  • 由于在python3中commands已由subprocess代替,在pylib/util/io_.py中,第12行,将import commands改为import subprocess as commands。在pylib/util/cmd.py中,第4行,将import commands改为import subprocess as commands
  • 在test_pixel_link.py在前面加上import util.cmd

(3)PixelLink检测文本测试(批量图片)
通过运行以下命令进行测试

./scripts/test.sh ${GPU_ID} ${model_path}/model.ckpt-xxx ${image_dir}

该命令由三个参数组成,第1个参数表示GPU的序号,第2个参数表示模型路径,第3个参数表示测试图片的目录。
在这里使用刚才下载的PixelLink+VGG16 4s预训练模型,使用场景文字图片数据集ICDAR2015进行测试(下载地址 http://rrc.cvc.uab.es/?ch=4&com=downloads),也可以使用自己的测试图片,将测试的图片放入到指定的目录。
执行脚本如下:

./scripts/test.sh 0 models/4s/model.ckpt-38055 /data/work/tensorflow/data/icdar_datasets/ICDAR2015/ ch4_test_images

 

03f22f6d88ee1ac107aff03eff08f0eeb68.jpg

检测后的结果保存在模型目录下,结果文件是测试图片中的文本框位置(4个坐标点),如下图:

290283d033a5196780c5f52e3d7bb594dcf.jpg

所有结果还会生成zip压缩文件,如下图:

 

 

7a15f4c355eaba4e0beacd93af0ff10c1ab.jpg

 

如果要使检测结果显性化,可通过调用scripts/vis.sh脚本,将会使文本检测的结果直接显示在图片上,调用命令为

./scripts/vis.sh ${image_dir} ${det_dir}

其中,第一个参数表示原始图片的路径,第二个参数表示检测后的文本框位置文件所在目录,最后输出的标示文本框图片结果保存在~/temp/no-use/pixel_result目录下
执行脚本如下

./scripts/vis.sh /data/work/tensorflow/data/icdar_datasets/ICDAR2015/ch4_test_images models/4s/test/icdar2015_test/model.ckpt-38055/txt

 

9bab638e495e2717825f5e23c6722b3c293.jpg

 

输出的结果图片如下

8aa2d8f513f9ed9d9f670fc3f1c61ce09ca.jpg

c20a492590eb8077c36026d834d104558c6.jpg

 

68849b841ec19303fd05aacd126ef103109.jpg

 

(4)PixelLink检测文本测试(任意图片)
为方便测试,可直接调用以下命令对任意图片进行测试,命令如下:

./scripts/test_any.sh ${GPU_ID} ${model_path}/model.ckpt-xxx ${image_dir}

该命令由三个参数组成,第1个参数表示GPU的序号,第2个参数表示模型路径,第3个参数表示图片的路径。
例如仍拿ICDAR2015的测试图片集进行测试,执行的命令如下:

./scripts/test_any.sh 0 models/4s/model.ckpt-38055 /data/work/tensorflow/data/icdar_datasets/ICDAR2015/ ch4_test_images

 

1ae1eb19ddf5f32caf24fca8fa9b3330079.jpg

执行后,文字的检测结果将会直接显示在图片上,如下图

 

 

4f7db5f92421280517c7bb4c5e6db5464dd.jpg

 

可能会有些人有疑惑,test_any.sh命令不就是把test.sh、vis.sh两个命令整合在一起吗,那究竟有什么区别呢?主要的区别如下:
a. test_any.sh命令调用的是test_pixel_link_on_any_image.py,而test.sh命令调用的是test_pixel_link.py,两者在调用检测模型时,test_pixel_link_on_any_image.py将并查集的后处理放到模型里面,而test_pixel_link.py则是将并查集的后处理放到模型外边。从检测效率来看,test_pixel_link_on_any_image.py比test_pixel_link.py在速度上慢了很多,这是由于并查集处理需要大量计算,放到模型外面利用CPU计算反而更加快速
b. test_pixel_link.py只输出文本框位置数据,而test_pixel_link_on_any_image.py直接将检测的文本框标示到图片上

(5)PixelLink文本检测能力封装
为方便其它程序调用PixelLink的文字检测能力,通过对test_pixel_link.py, visualize_detection_result.py代码进行改造封装,即可将文字检测能力提供给相应的程序调用,核心代码如下:

(6)pixellink的keras版本
刚才介绍的pixel link是基于tensorflow版本的,还有大牛使用Keras对核心代码进行改写,并在github上开放了keras版本pixel link的源代码。具体使用如下:
a. 下载源代码

862974008cbdd5366aa203b79d3491dd620.jpg

下载地址为https://github.com/opconty/pixellink_keras,可直接下载成zip压缩包或者git克隆

 

git clone https://github.com/opconty/pixellink_keras.git

b. 下载预训练模型
作者并没有重新训练模型,而是直接拿tensorflow版本的训练模型结果PixelLink-VGG 4s,转化为Keras的权重文件。下载地址为https://drive.google.com/file/d/1MK0AkvBMPZ-VfKN5m4QtSWWSUqoMHY33/view?usp=sharing

c. 安装基础环境
除了需要安装Keras之外,还要安装imutils依赖包

pip install imutils

如果是使用了OpenCV 4.x,则需要修改pixellink_utils.py第220行,将cv2.findContours的返回结果由3个结果修改为2个结果,将_,cnts,_改为cnts,_

d. 运行模型
执行pixellink_eval.py,即可进行文本检测,命令如下

python pixellink_eval.py

 

1a260ea7e02ca13dca47c6e9593e99eece9.jpg

默认对项目自带的图片进行检测(路径./samples/img_1099.jpg),检测效果如下:

 

 

dd8a317c75dc38eb6aa67ac78333d76a76f.jpg

 

 

如果要指定图片进行检测,可修改pixellink_eval.py文件中第21行,将img_path修改为指定的图片路径,然后再执行python pixellink_eval.py即可对指定的图片进行文字检测

为方便介绍,以上AdvancedEAST、PixelLink的文本检测能力封装时,将加载模型、文本框预测、图片绘制文本框等一些代码写在一起,而在实际生产使用中,一般是将其分开。如要了解在生产环境中的详细使用,可再私信进行交流

推荐相关阅读

1、AI 实战系列

2、大话深度学习系列

3、图解 AI 系列

4、AI 杂谈

5、大数据超详细系列

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值