两篇讲解Batch Normalization反向传播公式推导比较清楚的文章: 1. 用计算图进行forward和backward传播的推导: Batch Normalization 2. 用微积分进行forward和backward传播的公式推导(效率更高): Batch Normalization梯度反向传播推导Batch Normalization(批标准化)