放图
输入是5*5的图片,有三个通道,即R、G 、B,也可以理解深度为3,从三个不同角度看图片,输入就是5*5*3,里面的每个像素或者元素都是输入x.
为了避免全连接导致参数太多,训练复杂,引入卷积核,从小角度看图片,而不是整体看图片。下图是5*5*3的卷积核,输入是32*32*3,输出是深度为6,图片是28*28,则采用卷积和:(5*5*3+1
)*6=456个参数,那个1
是偏置b;采用全连接参数是(32*32*3)*(28*28)*6=?
卷积核是3*3*3
,是自己定义的,一般是5*5*3
、3*3*3
、7*7*3
、11*11*3
这几个奇数,红色的3
是对应rgb三通道,里面 的每个元素值相当于权重w。
步长可以理解为滑窗,按照3*3的窗口在图片上左右,上下滑动。
假 如 步 长 为 3 , 则 w − f + s s = 图 片 宽 − 卷 积 核 宽 + 步 长 步 长 = 5 − 3 + 3 3 = 1.7 假如步长为3,则\frac{w-f+s} {s}=\frac{图片宽-卷积核宽+步长} {步长}=\frac{5-3+3} {3}=1.7 假如步长为3,则sw−f+s=步长图片宽−卷积核宽+步长=35−3+3=1.7
不能整除时,为了不丢失最后一列和最后一行的像素,可以填充列和行,一般框架自己维护,先填充一列,如果不能整除,再加一列,尽量最少的填充,上图是填充了1列1行,553=》663的图片了。
p + w − f + s s = 填 充 列 + 图 片 宽 − 卷 积 核 宽 + 步 长 步 长 = 1 + 5 − 3 + 3 3 = 2 \frac{p+w-f+s} {s}=\frac{填充列+图片宽-卷积核宽+步长} {步长}=\frac{1+5-3+3} {3}=2 sp+w−f+s=步长填充列+图片宽−卷积核宽+步长=31+5−3+3=2