一.数据的格式二.激活函数二分类要用sigmoid,不能用softmax,公式如下:三.优化器sgd比adam在收敛阶段效果还好四.BatchNormalization数据量少,把BN去掉,换成归一化?