关于统计的一些理解
机器学习的目的在于找到复杂数据中的关联性,数据的独立性越强,则有效数据越多,数据中包含着部分的真理,数据科学家的目的在于找出关联性,即联合分布函数或者映射。
关于联合概率分布以及映射
联合概率分布的基本定义不再赘述,在机器学习中关于 X , Y X,Y X,Y的分布并非独立,而是服从 f ( X 1 , ⋯   , X n ) = Y 1 , ⋯   , Y m f(X_1, \cdots,X_n) = Y_1, \cdots,Y_m f(X1,⋯,Xn)=Y1,⋯,Ym,由于 f f f未知,实际分布未知。
计算概率分布的基本意图为预测,通过数据集来计算概率分布从而达到预测的功能,即
f
(
Y
/
X
)
=
∬
f
(
X
1
,
⋯
 
,
X
n
)
d
x
d
y
(
1
)
\ f(Y/X) = \iint_{}^{} f(X_1, \cdots,X_n){dx}{dy} \qquad(1)
f(Y/X)=∬f(X1,⋯,Xn)dxdy(1)
f
(
X
1
,
⋯
 
,
X
n
)
=
Y
1
,
⋯
 
,
Y
m
(
2
)
f(X_1, \cdots,X_n) = Y_1, \cdots,Y_m \qquad(2)
f(X1,⋯,Xn)=Y1,⋯,Ym(2)
上述公式都是用来预测y,达到的效果一致。实际上统计方法在决策树,贝叶斯应用广阔通过寻找
y
N
+
1
=
a
r
g
m
a
x
P
^
(
y
N
+
1
∣
x
N
+
1
)
y_{N+1} = argmax\hat{P}(y_{N+1}|x_{N+1})
yN+1=argmaxP^(yN+1∣xN+1)。即在
x
N
+
1
x_{N+1}
xN+1使结果最大的概率,这个结果对应的结果为
y
N
+
1
y_{N+1}
yN+1。常见于贝叶斯,决策树等模型《李航统计学习方法》p(5)
监督学习中的决策方式
经验风险
经验风险由损失函数决定。损失函数通常为人为定义比如:
平方损失函数
L
(
Y
,
f
(
x
)
)
=
(
Y
−
f
(
x
)
)
2
L(Y,f(x)) = (Y - f(x))^2
L(Y,f(x))=(Y−f(x))2
绝对值损失函数
L
(
Y
,
f
(
x
)
)
=
∣
Y
−
f
(
x
)
∣
L(Y,f(x)) = |Y - f(x)|
L(Y,f(x))=∣Y−f(x)∣
对数损失函数
L
(
Y
,
f
(
x
)
)
=
l
o
g
(
Y
−
f
(
x
)
)
L(Y,f(x)) = log(Y - f(x))
L(Y,f(x))=log(Y−f(x))
实际损失函数期望为
R
e
x
p
=
∫
X
×
Y
L
(
Y
,
f
(
x
)
)
P
(
X
,
Y
)
d
x
d
y
R_{exp} = \int_{X×Y}^{}L(Y,f(x))P(X,Y){dx}{dy}
Rexp=∫X×YL(Y,f(x))P(X,Y)dxdy
由于P的未知性,通常用经验期望
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
Y
,
f
(
x
)
)
R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(Y,f(x))
Remp=N1∑i=1NL(Y,f(x))来代替
R
e
x
p
R_{exp}
Rexp,在数据样本够多的情况下
R
e
m
p
→
R
e
x
p
R_{emp} \rightarrow R_{exp}
Remp→Rexp
结构风险与决策方式
结构风险通常防止过拟合,选取结构复杂度与 f f f相同的函数,使得 J ( f ) J(f) J(f)随着复杂度的增加而增加,通过参数λ调节两种风险的重要性,最后得到决策函数 R e m p + λ J ( f ) R_{emp}+\lambda J(f) Remp+λJ(f),这样就变成了求解决策函数最优的 f ( x ) f(x) f(x), J ( f ) J(f) J(f)通常为范数,这个符合奥卡姆剃刀原则。
泛化误差
对于任意的
f
f
f属于假设空间,至少有1-
δ
\delta
δ的概率,使得以下不等式成立
R
(
f
)
≤
R
^
(
f
)
+
ε
(
d
,
N
,
δ
)
R(f) \leq\hat{R}(f)+\varepsilon(d,N,\delta)
R(f)≤R^(f)+ε(d,N,δ)
ε
(
d
,
N
,
δ
)
\varepsilon(d,N,\delta)
ε(d,N,δ)中N为样本数目,N越大,则泛化误差上界越小,d为样本空间,d越大,泛化误差上界越大。其中
ε
(
d
,
N
,
δ
)
=
1
N
(
l
o
g
d
+
l
o
g
1
δ
)
\varepsilon(d,N,\delta) = \sqrt{\frac{1}{N}(logd+log\frac{1}{\delta})}
ε(d,N,δ)=N1(logd+logδ1)
习题1.1
伯努利模型的极大似然估计可得
∂
L
(
θ
)
θ
=
k
⋅
θ
+
−
1
1
−
θ
⋅
(
n
−
1
)
\frac{\partial L(\theta)}{\theta} = k·\theta+\dfrac{-1}{1-\theta}·(n-1)
θ∂L(θ)=k⋅θ+1−θ−1⋅(n−1)令其等于0可以得到
θ
=
k
n
=
arg
max
θ
L
(
θ
)
{\theta} = \dfrac{k}{n} = \mathop{\arg\max} \limits_{\theta}L(\theta)
θ=nk=θargmaxL(θ)
独立的数据结果是前提于关键,
习题1.2
经验风险函数,以及似然函数如下
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
Y
,
f
(
x
)
)
=
−
1
N
l
o
g
∏
P
(
y
i
∣
f
(
x
i
)
)
=
s
z
∏
P
(
y
i
,
f
(
x
i
)
)
R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(Y,f(x))=-\frac{1}{N}log\prod P(y_i|f(x_i))=sz\prod P(y_i,f(x_i))
Remp=N1i=1∑NL(Y,f(x))=−N1log∏P(yi∣f(xi))=sz∏P(yi,f(xi))
L
(
θ
)
=
L
(
x
1
,
⋯
 
,
x
n
,
θ
)
=
∏
P
(
y
i
,
f
(
x
i
)
)
L(\theta)=L(x_1,\cdots,x_n,\theta)=\prod P(y_i,f(x_i))
L(θ)=L(x1,⋯,xn,θ)=∏P(yi,f(xi))
sz认为定义的算子,两个函数有相同的主体部分,所以说两者等效。