梯度下降算法步长和收敛条件的设置的一些看法

在上一篇中介绍了梯度下降算法,还是利用了上面的那个x^2+y^2的例子,来求解下,代码如下:

function [] = gradient(step, threadhold)
%在这里主要是演示对z=x^2+y^2的用梯度下降算法
%设置x和y的初始值%
x = 100;
y = 100;
%先计算前两个步骤的值
last_step_result = x*x + y*y;
x = x - step*2*x;
y = y - step*2*y;
this_step_result = x^2 + y^2;

%设置最大迭代次数%
max_count = 1000000000;
index = 0;
while (abs(this_step_result -last_step_result) >threadhold) && (index < max_count)
  %计算此时的结果%
  current_dx = 2*x;
  current_dy = 2*y;
  %计算新的x和y
  x = x - step*current_dx;
  y = y - step*current_dy;
  %计算此时的z的值,并且交换
  last_step_result = this_step_result;
  this_step_result = x*x + y*y; 
  
   index = index + 1;
end

%跳出循环判断结果
if index >= max_count
    fprintf('超过最大迭代次数%i,并且没有找到符合收敛条件的值程序退出\n', index);
end

if abs(this_step_result - last_step_result) <= threadhold
    fprintf('找到最优解:%f,x=%f,y=%f,上一步的结果是:%f,迭代次数:%i\n', this_step_result, x, y, last_step_result, index);
end


end


我们都知道这个极值是在(0,0,0)处取得的,那么我们取了一些步长和收敛条件(连续两次z值得间隔)


可以看到步长不是越小越好的,相反步长越小反而取得的值不太接近真实的,这是为什么呢?因为连续函数连续两次间隔太近取得值基本相等,也就满足收敛条件了,所以步长不能取太小,当然也不能取太大,试想如果在有两个点x1,x2不同但是他们的函数值相等,正好取到一个步长让在x1,x2来回震荡那么取到的也不真实,所以这个步长取值是有一定的技巧的。


可以看到收敛条件的值,取得越小还是越好的,当然是在步长合理的前提下。至此对梯度下降的理解告一段落!



评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值