Mini-batch gradient descent
1. 用batch gradient descent时,当数据量巨大时,向量化的实现同样很慢,并且需要处理全部数据后,gradient才会得到更新
2. 使用mini-batch gradient descent来训练时,每一个mini-batch都能时gradient得到更新(但不一定都使LL下降)
3. mini-batch的大小如果是1,则为stochastic gradient descent,其在训练时,向量化的优势一点也没用上,收敛路径非常曲折,并不会真正收敛到某一点。
4. 参考stochastic和batch gradient descent两个极端,mini-batch既用到了vectorizing的加速,又避免了每次迭代需要很长时间的问题,因此是最快的方法。
5. m≤2000,用batch gradient descent;否则,使用mini-batch gradient descent,size可以选取26(64),27(128),28(256),29(512)26(64),27(128),28(256),29(512)