5.11组会衍生总结：train/eval/BN、CNN与特征图、极大似然与EM、方差n与n-1（有偏估计/无偏估计）

原创已于 2023-05-12 15:11:16 修改 · 713 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-05-11 21:59:34 首次发布

本文探讨了模型在训练和评估模式下的区别，特别是在批标准化（batchnorm）的使用上，以及在训练GAN时的优化策略。同时，详细解释了CNN的特征图概念和计算过程，以及极大似然估计和EM算法在参数估计中的应用。此外，还讨论了方差的n与n-1的区别，以及在样本方差估计中的作用。

❓组会问题：

opt.zero_grad()
loss.backward()
opt.step()

什么是对比学习（明天看一下），参考博客：对比学习（contrastive learning）这个和看的第一篇论文的loss差不多，都用到了向量夹角（内积？）和交叉熵损失函数
bert、blip
不同网络的encoder和decoder
retrieval
bn做了什么，数据发生了什么变化，激励函数包括什么，scale和shift是什么，数据发生了什么变化，对多维数据如何bn：下文有说，其中bn的处理单位是通道
特征图是什么，ground truth是什么：特征图=通道，在下文讲了； ground truth是real的东西，应该是现实中已经有的例子，在pix2pixHD和dance论文中都有说，可能一般用于图片生成/风格迁移的GAN网络？
(衍生问题)map是什么： feature map指每一层网络的通道；pix2pixHD中的semantic label maps是指下图
(衍生问题)总结各论文中用到的loss
(衍生问题)先验概率和后验概率：对于NCR中的高斯混合模型，某一正态分布下loss取某指定值的概率为先验概率，容易求，通过正态分布公式求；某一指定loss，求其为哪个正态分布的概率为后验概率，比如属于clean正态分布的概率。
(衍生问题)后验概率相加为1吗

model.train()

model.eval()

不启用 BatchNormalization 和 Dropout.
框架会自动把 BN 和 DropOut 固定住，不会取平均，而是用训练好的值，不然的话，一旦test的batch_size过小，很容易就会被BN层导致生成图片颜色失真极大！
如果不加model.eval()，有输入数据，即使不训练，它也会改变权值。这是model中含有batch normalization层所带来的的性质（虽然看源码没看出来）。

BN详解

BN是将每个通道进行标准化（变为标准正态分布），单位为一个batch批次的一个通道，例如若数据大小为(batch, C, W, H)则求平均后的大小为©；然后可以进行affine，即对标准化的数据进行* weight和+ bias。参考与代码：深入理解Pytorch的BatchNorm操作（含部分源码）
为什么要进行BN：BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布，经过BN后，大部分Activation的值落入非线性激励函数（如tanh）的线性区内，其对应的导数远离导数饱和区，这样来加速训练收敛过程。参考：整理学习之Batch Normalization（批标准化）
为什么有scale和shift操作（对应* weight和+ bias）：BN使得数据集中分布在了激活函数的线性部分，需要再用一个反操作来在一定程度下抵消这个线性化。参考：整理学习之Batch Normalization（批标准化）

模型进行train的步骤（以毕设中face_enhance为例）：

g_opt.zero_grad()
gen_loss.backward()
g_opt.step()

模型进行eval的步骤

特征图即为通道，特征图数 = 通道数 = 每一层矩阵数 = 前一层filter数，特征图数一般写在每层输出大小的第3维（如上vgg图左 224 * 224 * 64），写在convx-的后面（如图上vgg图右conv3-64），写在 @的前面（如图下8@28*28）
上图来源
一般图中，写的都是输出的维度，而不是filter（如vgg图左224 * 224 * 64），有可能写在开头（如上图6@28*28）；一般表中，写的都是filter（如vgg图右conv3-64）。这可能是因为，图是具体例子，而表是网络结构
pool层如果没有参数则不算在总层数内（如vgg-16中不算pool）而conv和fc有可训练参数所以算在层数内（如vgg-16中仅conv+fc有16层）
一个filter的参数数 = 输入/前一层特征图数 * 一个filter的大小（即n*n）+ 1个bias = 输入特征数 * (n * n) + 1；一层conv的所有filter的参数总数 = 一个filter的参数数 * 该层总filter数