我们对n元线性回归做出的假设函数如下:
h
θ
(
x
)
=
θ
T
X
=
x
0
θ
0
+
x
1
θ
1
+
x
2
θ
2
+
x
3
θ
3
+
⋯
+
x
n
θ
n
(1.1)
h_\theta(x)=\theta^TX=x_0\theta_0+x_1\theta_1+x_2\theta_2+x_3\theta_3+\dots+x_n\theta_n \tag{1.1}
hθ(x)=θTX=x0θ0+x1θ1+x2θ2+x3θ3+⋯+xnθn(1.1)
代价函数如下:
J
(
θ
0
,
θ
1
,
θ
2
…
θ
n
)
=
1
2
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
i
)
2
(1.2)
J(\theta_0,\theta_1,\theta_2\dots\theta_n)=\frac{1}{2m}\sum^m_{i=1}\left(h_\theta(x^{(i)})-y^i\right)^2 \tag{1.2}
J(θ0,θ1,θ2…θn)=2m1i=1∑m(hθ(x(i))−yi)2(1.2)
一般我们把参数用向量来表示,于是代价函数可以这样表示:
J
(
θ
)
=
1
2
m
∑
i
=
1
m
(
h
θ
(
x
(
i
)
)
−
y
i
)
2
(1.3)
J(\theta)=\frac{1}{2m}\sum^m_{i=1}\left(h_\theta(x^{(i)})-y^i\right)^2 \tag{1.3}
J(θ)=2m1i=1∑m(hθ(x(i))−yi)2(1.3)
最小化代价函数利用梯度下降法:
Repeat:
θ
j
=
θ
j
−
α
∂
∂
θ
j
J
(
θ
)
(1.4)
\theta_j=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta) \tag{1.4}
θj=θj−α∂θj∂J(θ)(1.4)
j
=
0
,
1
,
2
,
3
…
n
j=0,1,2,3\dots n
j=0,1,2,3…n
注意同时更新。
我希望对把迭代过程展开:
θ
j
=
θ
j
−
α
1
m
∑
i
=
1
m
[
h
θ
(
x
(
i
)
)
−
y
(
i
)
]
x
j
(
i
)
\theta_j=\theta_j-\alpha\frac{1}{m}\sum^m_{i=1}[h_\theta(x^{(i)})-y^{(i)}]x_j^{(i)}
θj=θj−αm1i=1∑m[hθ(x(i))−y(i)]xj(i)
再详细一点:
θ
0
=
θ
0
−
α
1
m
∑
i
=
1
m
[
h
θ
(
x
(
i
)
)
−
y
(
i
)
]
x
0
(
i
)
(1.5)
\theta_0=\theta_0-\alpha\frac{1}{m}\sum^m_{i=1}[h_\theta(x^{(i)})-y^{(i)}]x_0^{(i)}\tag{1.5}
θ0=θ0−αm1i=1∑m[hθ(x(i))−y(i)]x0(i)(1.5)
θ
1
=
θ
1
−
α
1
m
∑
i
=
1
m
[
h
θ
(
x
(
i
)
)
−
y
(
i
)
]
x
1
(
i
)
(1.6)
\theta_1=\theta_1-\alpha\frac{1}{m}\sum^m_{i=1}[h_\theta(x^{(i)})-y^{(i)}]x_1^{(i)}\tag{1.6}
θ1=θ1−αm1i=1∑m[hθ(x(i))−y(i)]x1(i)(1.6)
θ
2
=
θ
2
−
α
1
m
∑
i
=
1
m
[
h
θ
(
x
(
i
)
)
−
y
(
i
)
]
x
2
(
i
)
\theta_2=\theta_2-\alpha\frac{1}{m}\sum^m_{i=1}[h_\theta(x^{(i)})-y^{(i)}]x_2^{(i)}
θ2=θ2−αm1i=1∑m[hθ(x(i))−y(i)]x2(i)
⋯
\cdots
⋯
每次迭代同时更新从 θ 0 \theta_0 θ0到 θ n \theta_n θn
观察式子
(
1.5
)
(1.5)
(1.5)其中
x
0
x_0
x0认为等于
1
1
1,那式子
(
1.5
)
(1.5)
(1.5)和一元线性回归问题的梯度下降法的公式比较能够知道他们是一样的。
观察式子
(
1.6
)
(1.6)
(1.6)它和一元线性回归问题的梯度下降法的公式也是一样的。