我们在前面的时候提到了梯度下降法。我们简单说了一下步长。今天我们填上这个坑。我们根据函数的smooth 性质,聊一下这个步长该怎么取。
首先我们回忆一下函数是smooth, 则函数满足:
这个意思就是呢函数的值是会有一个上界的。
梯度下降法中呢,我们自变量更新的规则有
所以我们令 有
我们在前面的时候提到了梯度下降法。我们简单说了一下步长。今天我们填上这个坑。我们根据函数的smooth 性质,聊一下这个步长该怎么取。
首先我们回忆一下函数是smooth, 则函数满足:
这个意思就是呢函数的值是会有一个上界的。
梯度下降法中呢,我们自变量更新的规则有
所以我们令 有