[超详细]在caffe上用alexnet做汉字分类识别

最新推荐文章于 2020-02-19 14:10:50 发布

原创

最新推荐文章于 2020-02-19 14:10:50 发布 · 2.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#caffe #alexnet #卷积神经网络 #分类训练识别 #gpu

本文详述了如何利用Caffe框架，基于AlexNet模型对汉字进行分类识别的步骤，包括数据准备、制作lmdb数据集、计算均值、编写网络结构与solver文件、训练、部署测试及解决可能遇到的问题。通过生成验证码数据增加训练样本，并展示了训练与识别的结果。

前情提要：在网上找了一类验证码图片，对验证码进行处理后分割得到其上的汉字。在此基础上用alexnet对分割得到的汉字训练识别，测试识别的准确率。由于找的验证码数量不够，所以仿照原验证码类型生成了一波验证码数据。

（先把整个流程纲要和代码部分贴出来，后续的所有截图等我这两天整理好再补充上来。） ----2018.3.19

本文结构：

1.数据准备、制作lmdb数据集 2.计算均值

3.编写网络结构文件 4.编写solver求解文件

5.训练 6.编写deploy文件进行测试

7.可能出现的问题

1. 数据准备、制作lmdb数据集

保留一部分原图作为测试集，剩下的图按照训练集：验证集=5:1的数量分在两个文件夹内。生成两个标签文件train.txt和val.txt。标签文件内容编写格式为：图片名称.jpg 类别

训练集和验证集可以用原图掺杂自己生成的图，测试集要用原图。

复制并修改caffe中自带的文件（.../caffe-master/examples/imagenet/create_imagenet.sh）将图片数据转换为lmdb格式的数据：

#!/usr/bin/env sh
# Create the imagenet lmdb inputs
# N.B. set the path to the imagenet train + val data dirs
set -e

EXAMPLE=examples/imagenet  #EXAMPLE改成生成的lmdb文件要存放的路径
DATA=data/ilsvrc12         #DATA改成标签文件存放的路径
TOOLS=build/tools        #工具目录最好写绝对路径，我的是/home/hp/software/caffe-master/build/tools
TRAIN_DATA_ROOT=/path/to/imagenet/train/ #改成训练集路径
VAL_DATA_ROOT=/path/to/imagenet/val/ #改成测试集路径

#一定要将图片归一化，否则计算均值时会报错
# 如果图片已经被归一化成相同大小，则RESIZE写false。如果没有，则把RESIZE写true。
RESIZE=false
if $RESIZE; then
  RESIZE_HEIGHT=256 #resize的高度和宽度可自己修改
  RESIZE_WIDTH=256
else
  RESIZE_HEIGHT=0
  RESIZE_WIDTH=0
fi

if [ ! -d "$TRAIN_DATA_ROOT" ]; then
  echo "Error: TRAIN_DATA_ROOT is not a path to a directory: $TRAIN_DATA_ROOT"
  echo "Set the TRAIN_DATA_ROOT variable in create_imagenet.sh to the path" \
       "where the ImageNet training data is stored."
  exit 1
fi

if [ ! -d "$VAL_DATA_ROOT" ]; then
  echo "Error: VAL_DATA_ROOT is not a path to a directory: $VAL_DATA_ROOT"
  echo "Set the VAL_DATA_ROOT variable in create_imagenet.sh to the path" \
       "where the ImageNet validation data is stored."
  exit 1
fi

echo "Creating train lmdb..."

GLOG_logtostderr=1 $TOOLS/convert_imageset \
    --resize_height=$RESIZE_HEIGHT \
    --resize_width=$RESIZE_WIDTH \
    --shuffle \
    $TRAIN_DATA_ROOT \
    $DATA/train.txt \
    $EXAMPLE/ilsvrc12_train_lmdb    #lmdb数据命名可修改

echo "Creating val lmdb..."

GLOG_logtostderr=1 $TOOLS/convert_imageset \
    --resize_height=$RESIZE_HEIGHT \
    --resize_width=$RESIZE_WIDTH \
    --shuffle \
    $VAL_DATA_ROOT \
    $DATA/val.txt \
    $EXAMPLE/ilsvrc12_val_lmdb

echo "Done."

进入改好的create文件目录，在ubuntu终端总敲入sh create_imagenet.sh，然后就可以静等格式转换完成啦。

2.生成均值文件

复制并修改caffe中自带的文件（.../caffe-master/examples/imagenet/make_imagenet_mean.sh），主要是更改路径

#!/usr/bin/env sh
# Compute the mean image from the imagenet training lmdb
# N.B. this is available in data/ilsvrc12

EXAMPLE=examples/imagenet #改为训练集lmdb所在路径
DATA=data/ilsvrc12  #改为均值文件生成路径
TOOLS=build/tools   #最好改为绝对路径，我的是/home/hp/software/caffe-master/build/tools
$TOOLS/compute_image_mean $EXAMPLE/ilsvrc12_train_lmdb \
$DATA/imagenet_mean.binaryproto

echo "Done."

进入改好的文件所在目录，在终端敲入sh make_imagenet_mean.sh，显示“Done”就发现均值文件已经生成啦吐舌头

生成的均值文件是二进制格式，如果要转换为python格式：复制如下代码，新建convert_mean.py文件，按标亮的Usage方法进行使用就好啦~

#!/usr/bin/env python
import numpy as np
import os
import sys
import glob
import time,datetime
import scipy

最低0.47元/天解锁文章

15 条评论

u010395893 2018.08.21
我的就是按行写入的，但生成lmdb文件的时候出错，E0820 18:12:15.060643 4745 io.cpp:90] Could not open or find file /home/zlg/CPS-OCR-Engine-master/ocr/dataset/train//home/zlg/CPS-OCR-Engine-master/ocr/dataset/train/03167/376.png 我的标签文件是这样的： /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/93.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/92.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/76.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/94.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/31.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/108.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/39.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/103.png 0 /home/zlg/CPS-OCR-Engine-master/ocr/dataset/test/01880/85.png 0
- luolan9611回复u010395893 2018.08.21
  [reply]u010395893[/reply] 你的报错中，那个路径/home/zlg/CPS-OCR-Engine-master/ocr/dataset/train/重复了，后面又接了这个路径才接的文件名，这一连串下来，路径是错的，肯定找不到你的文件。在制作LMDB文件的时候，train.txt文件里的格式是"文件路径标签"。TRAIN_DATA_ROOT+"文件路径"才是完整的文件路径。如果你的TRAIN_DATA_ROOT是/home/zlg/CPS-OCR-Engine-master/ocr/dataset/train/ ，那么你的train.txt中按行写入的应该是"03167/376.png 标签"，这样制作LMDB的时候，读取的路径就是/home/zlg/CPS-OCR-Engine-master/ocr/dataset/train/03167/376.png，才能找到你的文件。如果你要在标签文件中把路径写全，那么你的TRAIN_DATA_ROOT=""，就应该不要写。始终记住TRAIN_DATA_ROOT+标签文件中的"文件路径"组成成完整的文件路径。不知道我说清楚了没。还有你那个test是怎么回事，你的训练集都放在test文件夹下吗

u010395893 2018.08.20
博主，您好执行第五步后，/home/hp/software/caffe-master/build/tools/caffe train 提示./train_alexnet.sh: 行 4: 2471 已放弃 (核心已转储) 检查了下，tools下没有train文件，如果去掉的话会提示examples/mnist/lenet_solver.prototxt: 没有那个文件或目录这个文件不是此前一步得到的文件吗？如果不是，alexnet_solver.prototxt从哪来的？
- u010395893回复luolan9611 2018.08.20
  [reply]luolan9611[/reply] 嗯，我的是3000多个汉字，每个汉字有好多种状态字体。其中，每一类汉字都放在同一个文件夹下，也就是我说我train文件夹下有3000多个文件夹，所以无法生成lmdb文件
- luolan9611回复u010395893 2018.08.20
  [reply]u010395893[/reply] https://blog.youkuaiyun.com/gavin__zhou/article/details/47374707 你去看看这个博客，train下面有多个文件夹，每个文件夹是一类。你目前的TRAIN_DATA_ROOT不用进行修改，在train.txt中，按行写入"类别/文件名标签"。比如train下有文件夹0，文件夹0中有图片12.png，那么在train.txt中就应该是"0/12.png 0"
- luolan9611回复u010395893 2018.08.20
  [reply]u010395893[/reply] 我看了一下，我的train有9960张图，大小是28.1M，转换成lmdb的大小是367.6M。如果训练集多，lmdb有五六个G也是有的。
- u010395893回复luolan9611 2018.08.20
  [reply]luolan9611[/reply] 然后在create_imagenet.sh文件中，比如我的训练集在TRAIN_DATA_ROOT=/home/zlg/CPS-OCR-Engine-master/ocr/dataset/train/ 但是train下有很多个文件夹，每个文件夹表示一类，每个文件夹里放置各类的图片，那我应该怎么改呢
- u010395893回复luolan9611 2018.08.20
  [reply]luolan9611[/reply] 嗯，再麻烦下，您生成的lmdb文件有多大？
- luolan9611回复u010395893 2018.08.20
  [reply]u010395893[/reply] 可能是你gpu的运行空间不够了。你在终端输一下nvidia -smi命令，查看一下gpu占用了多少，用kill -9 pid把那几个占用空间比较大的进程杀掉。比如有一个进程的ID是54321，用kill -9 54321杀掉该进程，再用nvidia -smi重新查看一下这个进程是不是杀掉了，现在的gpu占用了多少。然后你再执行训练命令。
- u010395893回复luolan9611 2018.08.20
  [reply]luolan9611[/reply] 不晓得为什么，我的总提示这个错误 ./train_alexnet.sh: 行 4: 4044 已放弃 (核心已转储) /home/zlg/caffe/build/tools/caffe train --solver=/home/zlg/caffe/examples/imagenet/alexnet_solver.prototxt --gpu=1
- luolan9611回复u010395893 2018.08.20
  [reply]u010395893[/reply] 第四步新建的就是alexnet_solver.prototxt文件，不是lenet_solver.prototxt
- luolan9611回复u010395893 2018.08.20
  [reply]u010395893[/reply] 第三步的时候，新建的是alexnet_trainval.prototxt；第四步的时候，将lenet_solver.prototxt文件修改，第1行的net后的路径要改为第三步新建的alexnet_trainval.prototxt的路径；第五步的时候，train不是文件，是命令，--solver后跟的是alexnet_solver.prototxt的路径，--gpu选择gpu号，--weights我前面加了#号注释掉了，你没有预训练的模型就不用加这一项。 ps: 'caffe-master/build/tools/caffe train --solver= --gpu= '这条训练命令，最前面找的不是train的文件，找的是build/tools/下的caffe那个紫色的文件，然后是空格，train给出执行的命令是训练，然后给出训练的参数路径，训练的gpu号等。 [code=python] #！/bin/bash set -e /home/hp/software/caffe-master/build/tools/caffe train --solver=/home/hp/software/caffe-master/data/luolan/yidun/alexnet_solver.prototxt --gpu=1 #--weights=/home/hp/software/caffe-master/data/wp/output1/_iter_18783.caffemodel echo "Done" [/code]

luolan9611 2018.08.20
由于机子上的数据丢失，所以一直没补截图，也懒得补了，尴尬.jpg

u010395893 2018.08.20
怎么生成train.txt和val.txt这两个标签文件
- luolan9611回复luolan9611 2018.08.20
  [reply]luolan9611[/reply] 如果你是对汉字分类，一般我们会把汉字图片的答案或者数字标签包含在图片名称中。还会写一个chartolabel和labeltochar进行汉字和数字label的转换。通过读取图片名称，分割出汉字，通过chartolabel找到对应的标签，将图片名和标签按行写入txt就好。在测试的时候，可以用labeltochar将标签转换为汉字查看识别的结果。比如： [code=python] #coding=utf-8 chartolabel={ '拉':0, '声':1,'识':2,'晴':3,'冲':4,'去':5, '城':6,'也':7,'觉':8,'白':9,'平':10, '说':11,'历':12,'是':13,'还':14,'常':15, '岸':16,'特':17,'呢':18,'手':19,'#':20} label_to_char={ 0:'拉', 1:'声',2:'识',3:'晴',4:'冲',5:'去', 6:'城',7:'也',8:'觉',9:'白',10:'平', 11:'说',12:'历',13:'是',14:'还',15:'常', 16:'岸',17:'特',18:'呢',19:'手',20:'#'} [/code]
- luolan9611回复u010395893 2018.08.20
  [reply]u010395893[/reply] 用python写一个就好。比如你的类别比较少，可能所有类别0的图片都放在文件夹0下，类别1的都放在文件夹1下。遍历文件夹读取文件名，然后将文件名和文件夹名以空格间隔按行写入一个txt文件就好。