- Softmax函数是将k维实数向量映射成k维(0,1)之间的实数向量(求指数后再除以指数的总和)。如果将原来的实数向量都乘以10倍,则会使得映射后的向量取值更为“极端”,即此时的学习器特别自信!
- One-Hot 编码
- 交叉熵:不对称
- Multinomial Logistic Regression:
- 最小化交叉熵:梯度下降
- python 3.6 中range取代了xrange的作用,另外下述代码结果不是1(为什么?见https://www.zhihu.com/question/25457573):
x = 1000000000 ox = x y = 0.000001 z = 1000000 for i in range(0,z): x = x + y x - ox
- 所以要避免数字之间差太多,要进行标准化
- notmnist这个例子包含很多对目录、文件和图片的操作:os.listdir()
- http://blog.youkuaiyun.com/u013698770/article/details/54645326
- http://www.cnblogs.com/wdsunny/p/6582698.html
- 验证集的大小: Rule of '30' >30000 >0.1%,即当性能提升0.1%时被影响到的验证样本达到了30个。没有这么多样本的话可以采用交叉验证的办法
- 随机梯度下降:降低运算量。与零均值同方差输入的关系,与使用较小方差的随机权重矩阵的关系
- 动量法与学习率下降
- AdaGrad
- shuffle
- sanitize (如测试集和训练集可能有重复样本),hash