hyper parameter的选择
- grid search vs 随机抽样
- β的选择
grid search vs 随机抽样
grid search:所有超参数取有限多种可能的值,遍历每种可能的取值组合,挑选出最优组合。
明显的缺点:不同重要性的超参数被一视同仁。
例如:α明显比epsilon重要。如果α有5种可能的取值,epsilon有5种可能的取值,遍历25种可能的组合,实际上只有5种有效组合。因为α相同,epsilon不同的5种组合效果基本上是相同的。
随机抽样:所有超参数在某一连续范围内取值,因此可能的取值有无限多种。
例如:α在[0,0.001][0,0.001][0,0.001]之间取值,epsilon在[0.001,0.002][0.001,0.002][0.001,0.002]之间取值。这样取25组,可能每次α的值都不相同。
β的选择
β是指数平均算法中的vdWL−1v_{dW_{L-1}}vdWL−1前面的系数。
重要的原则:β不能均匀抽样,而是应该对β的指数均匀抽样。
e.g.
r=-4*np.random.randn()
β=np.power(10,r)
效果:生成β∈[0.0001,1]∈[0.0001,1]∈[0.0001,1]
为什么要对指数均匀抽样?
β越接近1,cost function对β的变化越敏感。
e.g. β=0.9->β=0.9005:前10个指数平均值->前1/0.0995≈10个指数平均值
β=0.999->β=0.9995:前1000个指数平均值->前2000个指数平均值