统计学习方法-第一章

最新推荐文章于 2022-04-03 11:32:41 发布

那年柒月人未眠

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量266

点赞数

CC 4.0 BY-SA版权

分类专栏：统计学习方法文章标签：统计学习方法

本文链接：https://blog.youkuaiyun.com/U201410691/article/details/88363885

统计学习方法专栏收录该内容

13 篇文章

订阅专栏

统计学习方法第一章

关于统计的一些理解

关于统计的一些理解

机器学习的目的在于找到复杂数据中的关联性，数据的独立性越强，则有效数据越多，数据中包含着部分的真理，数据科学家的目的在于找出关联性，即联合分布函数或者映射。

关于联合概率分布以及映射

联合概率分布的基本定义不再赘述，在机器学习中关于 $X ， Y$ 的分布并非独立，而是服从 $f(X_1, \cdots,X_n) = Y_1, \cdots,Y_m$ ,由于 $f$ 未知，实际分布未知。

计算概率分布的基本意图为预测，通过数据集来计算概率分布从而达到预测的功能，即
$\ f(Y/X) = \iint_{}^{} f(X_1, \cdots,X_n){dx}{dy} \qquad(1)$
$f(X_1, \cdots,X_n) = Y_1, \cdots,Y_m \qquad(2)$
上述公式都是用来预测y，达到的效果一致。实际上统计方法在决策树，贝叶斯应用广阔通过寻找 $y_{N+1} = argmax\hat{P}(y_{N+1}|x_{N+1})$ 。即在 $x_{N+1}$ 使结果最大的概率，这个结果对应的结果为 $y_{N+1}$ 。常见于贝叶斯，决策树等模型《李航统计学习方法》p(5)

监督学习中的决策方式

经验风险

经验风险由损失函数决定。损失函数通常为人为定义比如：
平方损失函数 $L(Y,f(x)) = (Y - f(x))^2$
绝对值损失函数 $L (Y, f (x)) = ∣ Y - f (x) ∣$
对数损失函数 $L (Y, f (x)) = l o g (Y - f (x))$
实际损失函数期望为 $R_{exp} = \int_{X×Y}^{}L(Y,f(x))P(X,Y){dx}{dy}$
由于P的未知性，通常用经验期望 $R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(Y,f(x))$ 来代替 $R_{exp}$ ，在数据样本够多的情况下 $R_{emp} \rightarrow R_{exp}$

结构风险与决策方式

结构风险通常防止过拟合，选取结构复杂度与 $f$ 相同的函数，使得 $J (f)$ 随着复杂度的增加而增加，通过参数λ调节两种风险的重要性，最后得到决策函数 $R_{emp}+\lambda J(f)$ ,这样就变成了求解决策函数最优的 $f (x)$ , $J (f)$ 通常为范数，这个符合奥卡姆剃刀原则。

泛化误差

对于任意的 $f$ 属于假设空间，至少有1- $\delta$ 的概率，使得以下不等式成立
$\leq\hat{R}(f)+\varepsilon(d,N,\delta)$
$\varepsilon(d,N,\delta)$ 中N为样本数目，N越大，则泛化误差上界越小，d为样本空间，d越大，泛化误差上界越大。其中
$\varepsilon(d,N,\delta) = \sqrt{\frac{1}{N}(logd+log\frac{1}{\delta})}$
习题1.1
伯努利模型的极大似然估计可得
$\frac{\partial L(\theta)}{\theta} = k·\theta+\dfrac{-1}{1-\theta}·(n-1) $ 令其等于0可以得到
${\theta} = \dfrac{k}{n} = \mathop{\arg\max} \limits_{\theta}L(\theta) $

独立的数据结果是前提于关键，
习题1.2
经验风险函数，以及似然函数如下
$R_{emp} = \frac{1}{N}\sum_{i=1}^{N}L(Y,f(x))=-\frac{1}{N}log\prod P(y_i|f(x_i))=sz\prod P(y_i,f(x_i))$
$L(\theta)=L(x_1,\cdots,x_n,\theta)=\prod P(y_i,f(x_i))$
sz认为定义的算子，两个函数有相同的主体部分，所以说两者等效。