线性回归与梯度下降-优快云博客

捋一捋概念

基础栗子

房屋面积	房价
2104	400
1600	330
…	…

房屋面积 → 输入/特征 x → $x^{(i)}$ ，
房价 → 输出/目标变量 y → $y^{(i)}$ ，
一对x,y叫做训练样本 ，第i个为 $(x^{(i)},y^{(i)})$
m为样本大小，m个训练样本叫做训练集，

{(x (i), y (i)); i = 1, . . ., m}

$\{(x^{(i)},y^{(i)});i=1,...,m\}$

从样本中得到x和y的关系叫做假设函数，用h表示。

y = h (x) = θ 0 + θ 1 x

$y=h(x)=\theta_0+\theta_1x$

进阶栗子

房屋面积	卧室数	房价
2104	3	400
1600	2	330
…	…

在基础栗子中，影响房价的因素只有一个。而在这个栗子中，我们有两个x，函数变为

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2$
其中

θ $\theta$ 称为参数or权重。
n个输入or特征时，（设

x0=1 $x_0=1$ ）

h (x) = \sum i = 0 n θ i x i = θ T x

$h(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx$

cost function

判断训练出来的函数好坏与否，就看h(x)是否足够靠近y，也就是说要让二者差值尽量小。根据这个想法得到cost function：

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 .

$J(\theta)=\frac {1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2.$
这实质上就是普通最小二乘法。

梯度下降

为了让J(θ)尽量小，我们就需要选择合适的θ，因此使用梯度下降算法。

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$
其中α称为learning rate，也叫步长。
如果我们只有一对训练样本

(x,y) $(x,y)$ ，带入计算：

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 (h θ (x) - y) 2 = 2 \cdot 1 2 (h θ (x) - y) \cdot \partial \partial θ j (h θ (x) - y) = (h θ (x) - y) \cdot \partial \partial θ j (\sum i = 0 n θ i x i - y) = (h θ (x) - y) \cdot x j

$\begin{split} \frac{\partial}{\partial\theta_j}J(\theta)&=\frac{\partial}{\partial\theta_j}\frac{1}{2}(h_\theta(x)-y)^2\\ &=2·\frac{1}{2}(h_\theta(x)-y)·\frac{\partial}{\partial\theta_j}(h_\theta(x)-y)\\ &=(h_\theta(x)-y)·\frac{\partial}{\partial\theta_j}\Bigl(\sum_{i=0}^n\theta_ix_i-y\Bigl)\\ &=(h_\theta(x)-y)·x_j \end{split}$
如果我们有一个训练集