1、优先查看数据,数据中如果有空数据就会出现连续loss为nan,去除空白数据
data=data.dropna()
2、梯度爆炸
减小学习率,减小batch_size
3、数据归一化
4、网络的结构化不合理,隐含层,神经元个数
5、更换参数初始化方法
对于CNN,一般用xavier或msra方法(这个方法我没用过,只是看到有这个解决办法)
我使用第一种方法就解决了问题
1、优先查看数据,数据中如果有空数据就会出现连续loss为nan,去除空白数据
data=data.dropna()
2、梯度爆炸
减小学习率,减小batch_size
3、数据归一化
4、网络的结构化不合理,隐含层,神经元个数
5、更换参数初始化方法
对于CNN,一般用xavier或msra方法(这个方法我没用过,只是看到有这个解决办法)
我使用第一种方法就解决了问题