1.何谓“学习”
学习(Mitchell 1997定义):对某类任务T和性能度量P,一个计算机程序被任务可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。
2.任务T
分类
输入缺失分类
回归
转录:机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。
机器翻译
结构化输出:结构化输出任务的输出是向量或者其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系。
合成和采样:
缺失值填补
去噪
密度估计或概率质量函数估计
3.性能度量
均方误差
错误率
正确率
4.容量、过拟合、欠拟合
泛化:在先前未观测到的输入上表现良好的能力被称为泛化(generalization)。
机器学习和优化不同的地方在于,我们也希望泛化误差(也被称作测试误差)很低。泛化误差被定义为新输入的误差期望。这里,期望的计算基于不同的可能输入,这些输入来自于系统在现实中遇到的分布。
决定机器学习算法效果是否好的因素:
1.降低训练误差。
2.缩小训练误差和测试误差的差距。
这两个因素对应机器学习的两个主要挑战:欠拟合(unbefitting)和过拟合(overfitting)。
欠拟合是指模型不能在训练集上获得足够低的误差。过拟合是指训练误差和测试误差之间的差距太大。
通过调整模型的容量,我们可以控制模型是否偏向于过拟合或者欠拟合。通俗地,模型的容量是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
过拟合现象:如果我们使用高阶多项式,变量(特征)过多,那么这个函数能够很好的拟合训练集,但是却会无法泛化到新的数据样本中(泛化:一个假设模型能够应用到新样本的能力)。
应对过拟合的方法:
- 减少变量的个数:舍弃一些变量,保留更为重要的变量。但是,如果每个特征变量都对预测产生影响。当舍弃一部分变量时,也就舍弃了一些信息。所以,希望保留所有的变量。
- 正则化:保留所有的变量,将一些不重要的特征的权值置为0或权值变小使得特征的参数矩阵变得稀疏,使每一个变量都对预测产生一点影响。
正则化的思想就是减少高次项的值,使得曲线平滑。
表示正则化参数,在算法实际运行过程中,要选择合适的值,不能使其过大,否则可能会导致过拟合不能被消除,或者梯度下降算法不收敛。
正则化参数要做的就是控制两个目标之间的平衡关系:在最小化训练误差的同时正则化参数使模型简单。
1.最小化误差是为了更好的拟合训练数据。
2.正则化参数是为了防止模型过分拟合训练数据。
所以正则化参数要保证模型简单的基础上使模型具有很好的泛化性能。
正则化范数:L_0范数,L_1范数,L_2范数。
具体可参考:
https://blog.youkuaiyun.com/speargod/article/details/80233619
5.最大似然估计
最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。“似然”是对likelihood 的一种较为贴近文言文的翻译,“似然”用现代的中文来说即“可能性”。故而,若称之为“最大可能性估计”则更加通俗易懂。
- 最大似然估计的原理
给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样,通过利用fD,我们就能计算出其概率:
但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,然后用这些采样数据来估计θ。
一旦我们获得,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。
要在数学上实现最大似然估计法,我们首先要定义可能性:
并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。