梯度下降 为什么需要梯度下降 线性模型 y = w * x 时,我们可以暴力枚举w,但是当维度变多时,暴力就行不通了 所以我们考虑使用分治来解决问题 假设现在有两个维度 我们随机取四个区域,计算出每个区域中最好的结果,再在选中的结果区域中再取四个区域… 以此类推,最后能找到一组参数 这种做法的问题: 我们无法保证一定能取到最小值,所以有可能永远拿不到真正最好的参数 我们把找到模型最优的一组参数的过程就叫优化 cost函数也就是loss求和 梯度下降是贪心的思维 贪心算法的特征就是不一定能得到全局最好的结果,梯度下降也是同理,我们可能拿到的是局部最优,而不是全局最优 为