鉴于网上没有特别清晰地解释为何梯度下降法中更新式子为
特此将自己理解做个记录。
1. 先从Taylor展开的本质开始理解:
- 泰勒展开:泰勒公式是将一个在x=x0处,且具有n阶导数的函数P(x)利用关于(x-x0)的n次多项式来逼近函数f(x)【我们想要近似的函数】的方法。泰勒展开式在x=x0点展开形式为:【即f(x)只是用来近似t(x)在x0点附近的函数值】
- Taylor展开的真正意义:对于x0点的泰勒展开,其第一项就是f(x0), 也就是说对于x0这点的值来说,泰勒展开没有任何意义,因为
. 而Taylor展开的真正意义在于,当x在x0附近时候,比如x1处(d = |x1 - x0|比较小}),f(x1)相对于f(x0)是有变化的,这个变化可以用后面的导数项来补回来。而后面项的多少,决定了x1在多远处能达到精度。也就是,阶数越高,d可以活动范围越大。
- 因此,可以推广到插值算法中,对于选定的某一点,如果知道这
- Taylor展开的真正意义:对于x0点的泰勒展开,其第一项就是f(x0), 也就是说对于x0这点的值来说,泰勒展开没有任何意义,因为