1.给定数据集X = {
}, 数据标记为:Y = {
}
学习器:
, 学习率:
。
for
{
}
2.批量梯度下降算法(BGD)
批量梯度下降算法又称之为最速梯度下降,这里的“批量”指的是全部一起处理的意思。
2.给定数据集X = {
}, 数据标记为:Y = {
}
学习器:
, 学习率:
。
for
{
}
这里的 N 指的是样本数量。我们计算一次梯度时,需要计算完所有的数据的误差梯度,累加后再平均,这就是我们要找的最速下降梯度。也就类似于:“环顾四周”。
当然,实物具有两面性,有点是准确,但是在如今大数据的时代,这就造成了巨大的计算困难。
3.随机梯度下降算法(SGD)
2.给定数据集X = {
}, 数据标记为:Y = {
}
学习器:
, 学习率:
。
for
{
随机选择一条数据
;
;
}
SGD最大的好处就是我们不需要考虑数据集的尺寸,我们看见一条数据就修改一条数据,我们的机器学习就可以边学习边工作,也就是现在流行的 在线学习(Online Learing)。