Machine Learning(Andrew)Week10(上)

最新推荐文章于 2020-03-09 15:43:57 发布

原创最新推荐文章于 2020-03-09 15:43:57 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

Machine Learning 专栏收录该内容

35 篇文章

订阅专栏

本文探讨了如何通过学习曲线判断数据量对模型性能的影响，并对比了不同梯度下降方法（批梯度下降、随机梯度下降、小批量梯度下降）在大规模数据集上的应用效率。重点分析了随机梯度下降的收敛性及其参数选择，以及在线学习的特点和优势。此外，介绍了如何构建和优化在线学习模型，包括特征构建、模型选择与调整策略。同时，阐述了利用Map-reduce和数据并行处理加速梯度下降计算的方法，以及其在大规模数据集处理中的实际应用。

大数据集的机器学习

问题引出

在Week6(下)中我们曾说过Banko and Brill设计的一个分类器，最后得出了一个结论“It’s not who has the best algorithm that wins .It’s who has the most data”

但是在Week6(上)中我们说对高variance增加数据是有用的，而对于高vias帮助不大。所以什么时候数据多比较好，要用学习曲线来判断。

在Hsuan-Tien Lin的第十一讲说到随机梯度下降，可以去看看。我们先比较下几个梯度下降

Mini-batch gradient descent

区别：

Batch gradient descent 迭代的时候要使用所有m笔数据

Stochastic gradient descent迭代时随机使用1笔数据

Mini-batch gradient descent 迭代的时候使用b笔数据（通常b在2-100之间）

可以向量化形式提高计算速度

随机梯度下降收敛性

（1）批量梯度下降时，把Jtrain随着迭代次数变化的曲线画出来，判断是否收敛。但是如果数据规模很大，代价就太大了。

（2）随机梯度下降时，每次更新θ，都用代入下式：

每迭代i次，就求这i次代价的平均值，再绘制平均值与i迭代次数的曲线。（比如，第一次迭代就是一次平均，两次迭代就是两次的平均值……）

每迭代k次，横坐标是迭代次数；纵坐标是代价平均：第1次的代价，第1次和第2的代价的平均……k次代价的平均。看收敛情况时，重点看最后一个k次迭代的曲线。所以可以只绘制最后k次迭代的曲线

绘制最后k次迭代的曲线

	可以看出，我们选了个小的α后，学习曲线下降趋势明显多了
	对于不平滑的状况，我们可以选用更大的N。左图可以看出，N更大时更平滑。
	左图蓝色线，抖动明显且不下降，增加迭代次数k看它下降（红色线）；如果它没下降，变成绿色的线，就有可能模型有问题
	选一个小的α