已知条件
1)定义好的网络结构。
我的在
/home/yekui/caffe-master/models/bvlc_reference_caffenet/deploy.prototxt
2)训练好的权重
我的在
/home/yekui/caffe-master/
models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel
3)BGR
通道的均值
计算好的均值在
/home/yekui/caffe-master/python/caffe/imagenet/ilsvrc_2012_mean.npy
4)训练时的标签
我的在/home/yekui/caffe-master/data/ilsvrc12/synset_words.txt
步骤
1)准备工作
导入一些基础包、设置一些显示参数、最主要的是要导入caffe
包。
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (10, 10)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
import sys
caffe_root = '/home/yekui/caffe-master/' #你下载caffe所在路径
sys.path.insert(0, caffe_root + 'python') #加入路径加入环境变量
import caffe
2)导入网络
caffe.set_mode_cpu() #设置为CPU模式,比GPU慢
#caffe.set_device(0) #选用第一个GPU(如果有多个的话)
#caffe.set_mode_gpu() #设置为GPU模式
model_def = caffe_root + 'models/bvlc_reference_caffenet/deploy.prototxt'
model_weights = caffe_root + 'models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel'
net = caffe.Net(model_def, # 定义好的网络结构所在路径
model_weights, # 训练好的权重所在路径
caffe.TEST) # 用测试模式,不执行dropout等
3)设置预处理
caffe
要求的输入:
1)BGR格式
2)像素值在[0, 255],并减去各通道均值
3)一幅图像的size要形如(3, M, N)
而一般导入后的图像是这样的:
1)RGB格式
2)像素值在[0, 1],没减去各通道均值
3)图像size为(M, N, 3)
# mu := ImageNet图像集的均值
mu = np.load(caffe_root + 'python/caffe/imagenet/ilsvrc_2012_mean.npy')
mu = mu.mean(1).mean(1) # 对各通道像素取平均,得到各通道(BGR)均值
print 'mean-subtracted values:', zip('BGR', mu)
# 创建对输入的transformer预处理机,并命其名为'data'
transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape})
transformer.set_transpose('data', (2, 0, 1)) # 将图像size从(M,N,3)变为(3,M,N)
transformer.set_mean('data', mu) # 在各通道减去相应均值
transformer.set_raw_scale('data', 255) # 将尺度从[0 1]变换回[0 255]
transformer.set_channel_swap('data', (2, 1, 0)) # 将 RGB 变为 BGR
4)分类
# 设置输入的size
net.blobs['data'].reshape(50, # 一批处理多少图片(batch size)
3, # 3通道 (BGR) 图像
227, 227) # 将(大一些的)图片截取为 227x227 大小
image = caffe.io.load_image(caffe_root + 'examples/images/cat.jpg') #载入图片
transformed_image = transformer.preprocess('data', image) #预处理图片
#plt.imshow(image) 想看的话,这里显示图片
# 将图片输入给data层,这里50张图片的都是一样的
net.blobs['data'].data[...] = transformed_image
# 分类运算
output = net.forward()
output_prob = output['prob'][0] # 批中,第一张图片的属于各类的概率向量
print 'predicted class is:', output_prob.argmax() #显示概率最大对应的索引
# 载入已知的 ImageNet 标签
labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #标签路径
labels = np.loadtxt(labels_file, str, delimiter='\t') #得到标签列表
print 'output label:', labels[output_prob.argmax()] #显示最有可能的标签
top_inds = output_prob.argsort()[::-1][:5] # 前5个最大概率的索引
#显示最有可能的前5个标签
print 'probabilities and labels:',zip(output_prob[top_inds], labels[top_inds])
5)查看中间结果(可选)
先定义两个函数:
def data_check(net):
#显示各数据层,即各层的名字、batch size、多少feature map、size
print('data')
for layer_name, blob in net.blobs.iteritems():
print layer_name + '\t' + str(blob.data.shape)
#显示各权重层,即各层的名字、输出核的数目、输入的map数、核的size
print('params:')
for layer_name, param in net.params.iteritems():
print layer_name + '\t' + str(param[0].data.shape), str(param[1].data.shape)
def vis_square(data):
#输入:数组,其shape为(n, height, width) 或 (n, height, width, 3)
#输出:在近似为sqrt(n) * sqrt(n)的网格中,显示每个(height, width)图像
#注:n为要显示图像的数目,height为高度,width为宽度,3为通道数(没有则默认为1)
# normalize data for display
data = (data - data.min()) / (data.max() - data.min())
# force the number of filters to be square
n = int(np.ceil(np.sqrt(data.shape[0])))
padding = (((0, n ** 2 - data.shape[0]),
(0, 1), (0, 1)) # add some space between filters
+ ((0, 0),) * (data.ndim - 3)) # don't pad the last dimension
#(if there is one)
# pad with ones (white)
data = np.pad(data, padding, mode='constant', constant_values=1)
# tile the filters into an image
data = data.reshape((n, n) + data.shape[1:]).transpose((0, 2, 1, 3) + tuple(range(4, data.ndim + 1)))
data = data.reshape((n * data.shape[1], n * data.shape[3]) + data.shape[4:])
plt.imshow(data)
plt.axis('off')
现在可以查看中间结果了,最好一条一条的查看,以免前面显示的被后面的覆盖了。
data_check(net) #显示各层数据和权重的shape
# 参数是 [weights, biases] 形式的列表
filters = net.params['conv1'][0].data
vis_square(filters.transpose(0, 2, 3, 1))#调整为要求的shape(n, height, width, 3)
# 显示不同层的数据
feat = net.blobs['conv1'].data[0, :36]
vis_square(feat)
feat = net.blobs['pool5'].data[0]
vis_square(feat)
附录(如何得到这些已知条件)
文件下载在 http://pan.baidu.com/s/1jHUqwa6
将各文件放在相应的文件下,换若换成自己的路径时,程序中相应的路径也要修改。
对于download_model_binary.py文件,它是用来下载训练好的权重的。
我放在/home/yekui/caffe-master/scripts/download_model_binary.py
1)在shell环境下输入:cd(空格)/home/yekui/caffe-master
2)再输入:./scripts/download_model_binary.py(空格)./models/bvlc_reference_caffenet
3)得到训练好的权重。