(学习李航的《统计学习方法》笔记)
1.1 统计学习
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。
赫尔伯特⋅西蒙(Herbert A.Simon) 曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”
统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的只是,又回到对数据的分析与预测中去。
统计学习的三要素是模型(mode)、策略(strategy)和算法(algorithm)。
1.2监督学习
几个基本概念:
输入空间
特征空间
输出空间
联合概率分布
假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
1.3 统计学习三要素
方法=模型+策略+算法
模型就是所要学习的条件概率分布或决策函数。
假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。
假设空间用F表示。假设空间可以定义为决策函数的集合
其中,X和Y是定义在输入空间X和输出空间Y上的变量。这时F通常是由一个参数向量决定的函数族:
参数向量θ取值于n维欧氏空间,称为参数空间(parameter space)。
假设空间也可以定义为条件概率的集合
其中,X和Y是定义在输入空间X和输出空间Y上的随机变量。这时F通常是由一个参数向量决定的条件概率分布族:
参数向量θ取值于n维欧氏空间,也称为参数空间(parameter space)。
策略
损失函数和风险函数。
监督学习问题是在假设空间
常见的损失函数有:
0-1损失函数;
平方损失函数;
绝对损失函数;
对数损失函数。
模型
经验风险最小的模型是最优的模型。
结构风险最小化是为了防止过拟合而提出来的策略。
1.4模型评估与模型选择
假设学习到的模型是Y=f(^X),训练误差是模型Y=f(^X)关于训练数据集的平均损失。
如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
1.5正则化与交叉验证
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。
交叉验证的方法有:
简单交叉验证;
S折交叉验证;
留一交叉验证。
1.6泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。用学到的模型对未知数据的预测得误差即为泛化误差。事实上,泛化误差就是所学习到的模型的期望风险。
1.7生成模型与判别模型
生成方法:模型表示了生成关系。
判别模型:直接学习。
生成方法的学习收敛速度快,判别方法学习的准确率高。
1.8分类问题
精确率和召回率.
TP
FN
FP
TN
1.9标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
1.10回归问题
回归问题等价于函数拟合。