为了防止模型过拟合,dropout是一种trick,之前提到Batch Normalization的使用可以不必再使用dropout,但是我们还是有必要温习下什么是dropout。 Dropout dropout在全连接层使用。在训练阶段,对于每个节点,以p概率将其输出值保留,以1-p概率将其输出值乘以0。在测试阶段,输出结果要乘以p。原因是:保持训练阶段和测试阶段的期望值相同。训练阶段,对于每个节点,dropout之前的输出是x, 经历dropout之后的期望值是 p x + ( 1 − p ) ∗ 0 = p x px+(1-p)*0 = px px+(1