论文解读ON THE GENERALIZATION MYSTERY IN DEEP LEARNING
当不同示例的梯度在训练过程中很好地对齐时,即当它们是相干的时,梯度下降是稳定的,并且期望得到的模型能够很好地泛化。否则,如果示例太少或运行时间太长,则梯度下降可能无法泛化。该论文共有80页,目录如下,后面一部分多是一些数学证明,我将前一部分简单整理了一下,做成了思维导图,思维导图中的文字写在了后面,供大家参考。该论文研究的是为什么深度网络泛化得很好?作者从梯度下降、稳定性角度进行了分析。
原创
2022-11-18 16:11:04 ·
671 阅读 ·
1 评论