Caffe之Classification

最新推荐文章于 2020-12-24 20:41:08 发布

原创最新推荐文章于 2020-12-24 20:41:08 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

深度学习框架专栏收录该内容

3 篇文章

订阅专栏

本文介绍使用Caffe进行图像分类的全过程，包括网络结构定义、加载预训练模型、设置图像预处理参数及分类预测等内容。

部署运行你感兴趣的模型镜像

已知条件

1）定义好的网络结构。

我的在
/home/yekui/caffe-master/models/bvlc_reference_caffenet/deploy.prototxt

2）训练好的权重

我的在
/home/yekui/caffe-master/ models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel

3）`BGR`通道的均值

计算好的均值在
/home/yekui/caffe-master/python/caffe/imagenet/ilsvrc_2012_mean.npy

4）训练时的标签

我的在/home/yekui/caffe-master/data/ilsvrc12/synset_words.txt

步骤

1）准备工作

导入一些基础包、设置一些显示参数、最主要的是要导入caffe包。

import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['figure.figsize'] = (10, 10)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

import sys

caffe_root = '/home/yekui/caffe-master/'    #你下载caffe所在路径
sys.path.insert(0, caffe_root + 'python')   #加入路径加入环境变量
import caffe

2）导入网络

caffe.set_mode_cpu()   #设置为CPU模式，比GPU慢

#caffe.set_device(0)   #选用第一个GPU（如果有多个的话）
#caffe.set_mode_gpu()  #设置为GPU模式


model_def = caffe_root + 'models/bvlc_reference_caffenet/deploy.prototxt'
model_weights = caffe_root + 'models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel'

net = caffe.Net(model_def,  # 定义好的网络结构所在路径
                model_weights,  # 训练好的权重所在路径
                caffe.TEST)  # 用测试模式,不执行dropout等

3）设置预处理

caffe要求的输入：

1）BGR格式

2）像素值在[0, 255]，并减去各通道均值

3）一幅图像的size要形如（3, M, N）

而一般导入后的图像是这样的：

1）RGB格式

2）像素值在[0, 1]，没减去各通道均值

3）图像size为（M, N, 3）

# mu := ImageNet图像集的均值
mu = np.load(caffe_root + 'python/caffe/imagenet/ilsvrc_2012_mean.npy') 
mu = mu.mean(1).mean(1)  # 对各通道像素取平均，得到各通道（BGR）均值
print 'mean-subtracted values:', zip('BGR', mu)

# 创建对输入的transformer预处理机，并命其名为'data'
transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape})

transformer.set_transpose('data', (2, 0, 1))  # 将图像size从（M,N,3）变为（3,M,N）
transformer.set_mean('data', mu)  # 在各通道减去相应均值
transformer.set_raw_scale('data', 255)  # 将尺度从[0 1]变换回[0 255]
transformer.set_channel_swap('data', (2, 1, 0))  # 将 RGB 变为 BGR

4）分类

# 设置输入的size
net.blobs['data'].reshape(50,        # 一批处理多少图片（batch size）
                          3,         # 3通道 (BGR) 图像
                          227, 227)  # 将（大一些的）图片截取为 227x227 大小

image = caffe.io.load_image(caffe_root + 'examples/images/cat.jpg') #载入图片
transformed_image = transformer.preprocess('data', image)           #预处理图片
#plt.imshow(image)  想看的话，这里显示图片

# 将图片输入给data层，这里50张图片的都是一样的
net.blobs['data'].data[...] = transformed_image

# 分类运算
output = net.forward()

output_prob = output['prob'][0]  # 批中，第一张图片的属于各类的概率向量
print 'predicted class is:', output_prob.argmax() #显示概率最大对应的索引


# 载入已知的 ImageNet 标签
labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #标签路径
labels = np.loadtxt(labels_file, str, delimiter='\t')       #得到标签列表
print 'output label:', labels[output_prob.argmax()]         #显示最有可能的标签

top_inds = output_prob.argsort()[::-1][:5]  # 前5个最大概率的索引
#显示最有可能的前5个标签
print 'probabilities and labels:'，zip(output_prob[top_inds], labels[top_inds])

5）查看中间结果（可选）

先定义两个函数：

def data_check(net):
    #显示各数据层，即各层的名字、batch size、多少feature map、size
    print('data')
    for layer_name, blob in net.blobs.iteritems():
        print layer_name + '\t' + str(blob.data.shape)

    #显示各权重层，即各层的名字、输出核的数目、输入的map数、核的size
    print('params:')
    for layer_name, param in net.params.iteritems():
        print layer_name + '\t' + str(param[0].data.shape), str(param[1].data.shape)


def vis_square(data):
    #输入：数组，其shape为(n, height, width) 或 (n, height, width, 3)
    #输出：在近似为sqrt(n) * sqrt(n)的网格中，显示每个(height, width)图像
    #注：n为要显示图像的数目，height为高度，width为宽度，3为通道数（没有则默认为1）

    # normalize data for display
    data = (data - data.min()) / (data.max() - data.min())

    # force the number of filters to be square
    n = int(np.ceil(np.sqrt(data.shape[0])))
    padding = (((0, n ** 2 - data.shape[0]),
                (0, 1), (0, 1))  # add some space between filters
               + ((0, 0),) * (data.ndim - 3))  # don't pad the last dimension 
                                               #(if there is one)
    # pad with ones (white)
    data = np.pad(data, padding, mode='constant', constant_values=1)  

    # tile the filters into an image
    data = data.reshape((n, n) + data.shape[1:]).transpose((0, 2, 1, 3) + tuple(range(4, data.ndim + 1)))
    data = data.reshape((n * data.shape[1], n * data.shape[3]) + data.shape[4:])

    plt.imshow(data)
    plt.axis('off')

现在可以查看中间结果了，最好一条一条的查看，以免前面显示的被后面的覆盖了。

data_check(net)  #显示各层数据和权重的shape

# 参数是 [weights, biases] 形式的列表
filters = net.params['conv1'][0].data  
vis_square(filters.transpose(0, 2, 3, 1))#调整为要求的shape(n, height, width, 3)

# 显示不同层的数据
feat = net.blobs['conv1'].data[0, :36]
vis_square(feat)

feat = net.blobs['pool5'].data[0]
vis_square(feat)

附录（如何得到这些已知条件）

文件下载在 http://pan.baidu.com/s/1jHUqwa6

将各文件放在相应的文件下，换若换成自己的路径时，程序中相应的路径也要修改。

对于download_model_binary.py文件，它是用来下载训练好的权重的。

我放在/home/yekui/caffe-master/scripts/download_model_binary.py

1）在shell环境下输入：cd(空格)/home/yekui/caffe-master

2）再输入：./scripts/download_model_binary.py(空格)./models/bvlc_reference_caffenet

3）得到训练好的权重。

您可能感兴趣的与本文相关的镜像

AutoGPT

AI应用

AutoGPT于2023年3月30日由游戏公司Significant Gravitas Ltd.的创始人Toran Bruce Richards发布,AutoGPT是一个AI agent（智能体），也是开源的应用程序，结合了GPT-4和GPT-3.5技术，给定自然语言的目标，它将尝试通过将其分解成子任务，并在自动循环中使用互联网和其他工具来实现这一目标