1.随机方差缩减梯度(SVRG)
在实际问题中为了保证SGD收敛,须将步长逐渐缩短到0,这使得SGD收敛速度很慢。小步长的需求是来自于SGD随机取样造成的方差,但是存在下面描述的修复。每轮都使用来估计
,并用来接近最优参数
,
称为的“快照”。比如每经过m次SDG迭代,就抓拍一个
,记为本轮的
。此外还要计算下每轮的平均梯度
这里的表示:对第i个样本在
下的损失函数求梯度。注意
,因此有以下更新规则,我们称为SVRG,此更新亦可看正则后的SGD.随机从样本序列
中抽取