统计学习三要素:模型,策略,算法。
模型:模型就是要学习的条件概率分布或决策函数。
策略:按照什么样的准则学习或选择最优的模型。
算法:学习模型的具体计算方法。
损失函数和风险函数:损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
模型的假设空间:包含所有可能的条件概率分布或决策函数。
经验风险或经验损失:模型f(x)关于训练数据集的平均损失。
经验风险最小化(ERM)策略:经验风险最小的模型就是最优的模型。
结构化风险最小化(SRM)策略:是为了防止过拟合而提出的策略,等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项。
模型选择:旨在避免过拟合并提高模型的预测能力。
两种模型选择的方法:正则化和交叉验证。
正则化项:一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化的作用就是选择经验风险与模型复杂度同时较小的模型。
学习方法的泛化能力:是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。
泛化误差:模型对未知数据预测的误差,就是所学习到的模型的期望风险。
监督学习可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)=P(X,Y)/P(X)。这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。
典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型。
判别方法:由数据直接学习决策函数f(X)或者条件概率分布f(Y|X)作为预测模型。判别方法关心的是给定输入X,应预测什么样的Y。
典型的判别模型:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能:生成方法的学习收敛速度更快,即当样本增加的时候,可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成学习方法,此时判别方法就不能用。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象定义特征并使用特征,因此可以简化学习问题。
二分类常用的评价指标:精确率和召回率。
精确率:P=TP/(TP+FP), 表示分为正例中实际为正例的比例;
召回率:R=TP/(TP+FN), 召回率是覆盖面的度量,度量有多个正例被分为正例;所有正例被正确分类的比例。
F1值:精确率和召回率的调和均值,即2/F1=1/P + 1/R ;精确率和召回率都高时,F1值也会高,F1值较高时说明分类方法有效。
回归问题:等价于函数拟合,根据输入变量的个数分为一元回归和多元回归; 按照输入变量和输出变量之间的关系的类型即模型的类型,分为线性回归模型和非线性回归。回归常用的损失函数是平方损失函数,回归问题可以用最小二乘法求解。