Theano中conv2d多通道理解

最新推荐文章于 2024-04-22 23:24:19 发布

转载最新推荐文章于 2024-04-22 23:24:19 发布 · 2.2k 阅读

Theano 专栏收录该内容

2 篇文章

订阅专栏

本文通过实例解析Theano中的conv2d函数，解释了卷积核如何作用于输入图片并产生输出特征图的过程，帮助初学者理解卷积神经网络的基本原理。

前言

因为最近在自学CNN，在认识了卷积的一些基本概念后，对卷积过程中的一些过程有困惑，故想借助theano的conv2d函数加深理解。

问题

首先，对于conv2d的输入，第一层的输入往往是[多少张图片，RGB通道数，图片有多少行，图片有多少列], 权重的形状往往是[卷积核数量，三层特征图数，卷积核宽，卷积核高]。

假设输入图片是[1, 2, 1, 5]，权重是[2，2，1，2]，那么卷积的结果是[1, 2, 1, 4]。

明明权重是2*2个1*2，为什么最后得到的特征图数会更前面的卷积核数相同？

其实我们说的卷积核一般都是三维的，它是[上一层特征图数，宽，高]。进行卷积运算后还有一个求和的运算，这才是完整的conv2d。

实验

测试代码如下：

inputs = T.tensor4(name='input', dtype='float64')

w_shp = (2, 1, 1, 2)
W = theano.shared(
    np.asarray(
        [
            [[[1., 1.]],
             [[1., 1.]]],
            [[[2., 2.]],
             [[1., 1.]]]
        ],
        dtype=inputs.dtype),
    name='W')

conv_out = conv2d(inputs, W)

f = theano.function([inputs], conv_out)

i = np.asarray([
    [[[1., 2., 3., 4., 5.]],
     [[1., 2., 3., 4., 5.]]]
], dtype='float64')
ii = f(i)
print(i.shape)
print(W.get_value().shape)
print(ii)
print(ii.shape)1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27