第一次排版有误,给各位造成困扰了,现已更新
目录
想法
由于训练模型选择的过于复杂,或是训练数据集包含无用的数据,导致假设函数对于训练数据集拟合效果极好,然而对于测试数据集或预测的数据出现较大偏差。
对于上述问题,如果将训练模型简化,或者将无用数据剔除,就能改善这个问题。
正则化是通过某种“惩罚”措施,选择较小的
θ
θ
值作为参数,从而达到模型的简化和数据的剔除。
数学表示
J(θ)=12m[∑mi=1(hθ(xi)−yi)2+λ∑nj=1θ2j]
J
(
θ
)
=
1
2
m
[
∑
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
2
+
λ
∑
j
=
1
n
θ
j
2
]
其中
∑mi=1(hθ(xi)−yi)2
∑
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
2
为了拟合数据集,
λ∑nj=1θ2j
λ
∑
j
=
1
n
θ
j
2
为了得到较少的参数,
λ
λ
为正则化参数,一般是一个较大的数字,用于平衡假设函数的拟合程度与简洁程度。
1. 线性回归
线性回归时,如果采用梯度下降算法,则有
θj=θj(1−αλm)−α1m∑mi=1(hθ(xi)−yi)xij, j∈(0,n]
θ
j
=
θ
j
(
1
−
α
λ
m
)
−
α
1
m
∑
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
x
j
i
,
j
∈
(
0
,
n
]
采用正规方程,则有
θ=⎛⎝⎜⎜⎜⎜⎜⎜XTX+λ⎡⎣⎢⎢⎢⎢⎢⎢011⋱1⎤⎦⎥⎥⎥⎥⎥⎥⎞⎠⎟⎟⎟⎟⎟⎟−1XTY, (λ>0)
θ
=
(
X
T
X
+
λ
[
0
1
1
⋱
1
]
)
−
1
X
T
Y
,
(
λ
>
0
)
2. 逻辑回归
采用梯度下降算法,则有
θj=θj(1−αλm)−α1m∑mi=1(hθ(xi)−yi)xij, j∈(0,n]
θ
j
=
θ
j
(
1
−
α
λ
m
)
−
α
1
m
∑
i
=
1
m
(
h
θ
(
x
i
)
−
y
i
)
x
j
i
,
j
∈
(
0
,
n
]
注意:其中的
hθ(x)=11+e−θTX
h
θ
(
x
)
=
1
1
+
e
−
θ
T
X
与线性回归时的区别
胡思乱想时刻
关于过拟合的一些概念:发现了的马孔多的笔记