关键概念
- 统计学习三要素
一切统计学习方法可以由三要素描述:模型 + 策略 + 算法
模型
根据想要学习的目标,模型可以分为概率模型和非概率模型。概率模型是指从输入空间X到输出空间Y的映射是通过条件概率来描述的。非概率模型一般就是由决策函数来描述X到Y的映射。
策略
要学习一个模型,从直观上就是要让这个模型对映射的描述越来越准确。要度量这个准确性,就需要引入一些对于模型不准确程度的衡量标准,也就是损失函数。很显然,针对训练集,损失函数越小,模型就越准确,但是可能会带来过拟合的问题,导致在测试集上表现很差。所以一般有两种策略:经验风险最小化(只考虑训练集的表现)和结构风险最小化(加入正则化,抵抗过拟合)
算法
通过确定策略,已经确定了一个需要被优化的函数,优化函数的具体计算方法,称为算法。机器学习里算法之所以关键,主要是因为大多数优化问题都没有显式解,所以需要好的数值计算方法进行优化。 - 参数估计复习
概率论中的参数估计,目前用到了两种,点估计和贝叶斯估计。
点估计就是指决定某个分布的参数 θ \theta θ 被看做是一个确定的未知数,并且用一个数(而不是一个区间)来估计这个未知数。
贝叶斯估计认为这个参数是符合某种分布的。当我们对这个分布没有进行过观察的时候,对这个分布仅仅有一个朴素的没有偏向的认识,称为先验分布。在进行了一次或多次观察之后,我们得到了一些新的信息,这个信息有助于我们去修改之前对这个分布的估计,修改完的分布称为后验分布。
个人习题解答
- 伯努利模型的点估计和贝叶斯估计
1.1 点估计
模型:伯努利模型描述了一个取值为0或1的离散型随机变量 X X X进行一次实验的结果。
策略:极大似然估计的思路是[1],对于分布 f ( x ; θ 1 , . . . , θ k ) f(x;\theta_1,... ,\theta_k) f(x;θ1,...,θk)有独立同分布的观察样本 X 1 , . . . , X n X_1, ...,X_n X1,...,Xn。将 θ \theta θ视为未知的参数,则得到这一系列观察样本 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn的联合概率为 L ( X 1 , . . . , X n ; θ 1 , . . . , θ k ) L(X_1, ..., X_n;\theta_1, ..., \theta_k) L(X1,...,Xn;θ1,...,θk)。联合概率 L L L的大小取决于 θ i \theta_i θi的不同取值。
那么,使用目前的观察进行估计,哪个 θ i \theta_i θi的取值是最可能的呢?极大似然估计认为,使联合概率分布取最大值的 θ i \theta_i θi是最可能的。数学描述为:
L ( X 1 , ⋯   , X n ; θ 1 ∗ , ⋯   , θ k ∗ ) = max θ 1 , ⋯   , θ k L ( X 1 , ⋯   , X n ; θ 1 , ⋯   , θ k ) L(X_1,\cdots, X_n;\theta_1^*,\cdots, \theta_k^*) = \max \limits_{\theta_1, \cdots, \theta_k}L(X_1, \cdots, X_n;\theta_1, \cdots, \theta_k) L(X1,⋯,Xn;θ1∗,⋯,θk∗)=