XNOR-net 实验
网络最后一层,BN前后activation均值方差随训练次数的变化
固定样本点,也就是采用了相同的数据集子集(因为没必要囊括全部样本点),比较不同channel上的输出。由于卷积层每个channel的输出均为二维矩阵,这里取二维矩阵的均值方差来作为比较对象。
下图第一行是均值比较,第二行是方差比较,每列channel相同。
从上图可以看出,随着训练次数增加,BN前的均值会大幅上涨,会有一个区间增长趋势几乎为指数型。BN前方差变动非常剧烈,会有多个指数型涨落。 而BN后无论均值和方差都会比较稳定。
网络最后一层,比较不同样本点对activation均值方差的影响
从下图可以看出,没影响。
比较网络第一层,第四层,第七层卷积层activation均值变动
可以看到,层越深,BN前均值的变动范围越大。
比较网络第一层,第四层,第七层卷积层activation方差变动
可以看出,层数越深,方差变动越大