最优化-梯度下降法

于 2017-11-20 22:28:49 发布 · 848 阅读

·

0

·

文章标签：

#最优化 #机器学习 #梯度下降法-梯度下降法-牛顿法-高斯牛顿法-levenberg-marquardt算法

最优化概述

机器学习近年来已经获得迅速发展,而机器学习的本质就是对问题进行抽象建模,使得一个学习问题变为一个可求解的优化问题,归纳起来就是把一个学习问题转化为优化问题.我们需要寻找输入特征与标签之间的映射关系,有一条重要的原则就是使得寻找到的映射结果与原始标签之间的误差最小.
最优化算法从最基本的梯度下降法到一些启发式算法,如遗传算法(GA),差分演化算法(DE),粒子群算法(PSO)和人工蜂群算法(ABC).

梯度下降法

梯度下降法又称为最速下降法,是一种最优化求解算法,可被应用到线性回归算法中,当然还有其他机器学习算法,如逻辑斯蒂回归和神经网络.

拟合函数

以线性回归作为算法实例,拟合函数为:

H (x) = θ 0 + θ 1 X 1 + θ 2 X 2 + . . . + θ n X n

$H(x) = \theta_0 + {\theta_1}X_1 + {\theta_2}X_2 + ...+ {\theta_n}X_n$
其中,

θ0,θ1,θn $\theta_0 , \theta_1, \theta_n$ 为参数,

X1,X2,Xn $X_1, X_2, X_n$ 为特征.

代价函数

为求得模型最优化解,需要找到合适的参数使得拟合函数能更好的适合模型,然后使用梯度下降法最小化代价函数 $J(\theta)$ ,这里采用平方差作为代价函数.

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$
m表示训练集的数目,

x(i) $x^{(i)}$ 表示第i个训练样本的所有特征,

hθ(x(i)) $h_\theta(x^{(i)})$ 表示依据拟合函数第i个训练样本的拟合值,

y(i) $y^{(i)}$ 为第i个样本的实际结果值.
代价函数的用途:对假设的函数进行评价,代价函数(误差)越小的拟合函数说明拟合训练数据拟合的越好.
举例说明:
给定训练数据集: (1,1),(2,2),(3,3),共有3个训练样本,每个训练样本包含一个特征值及对应的结果值,只有一个特征,所以拟合函数为

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。