1.1 统计学习
特点:
(1)以计算机及网络为平台;
(2)以数据为研究对象;
(3)目的是对数据进行预测与分析;
(4)以方法为中心;
(5)是多个领域的交叉学科。
实现统计学习的步骤:
(1)有一个有限的训练集数据集合;
(2)确定包含所有可能的模型的假设空间(模型);
(3)确定模型选择的准则(策略);
(4)实现求解最优模型的算法(算法);
(5)选择最优模型;
(6)利用最优模型对新数据进行预测或分析。
1.2 统计学的分类
基本分类:有监督学习、无监督学习和强化学习。有时还包括半监督学习和主动学习。
监督学习
数据有标注,表示输入输出的对应关系。预测模型对给定的输入产生相应的输出。本质是学习输入到输出的映射的统计规律。
基本假设:输入与输出的随机变量和
遵循联合概率分布
。
目的:学习一个由输入到输出的映射,映射由模型来决定。
模型:条件概率分布或决策函数
表示。
输入变量与输出变量为连续变量的预测问题为回归问题,
输出变量为有限个离散变量的预测问题为分类问题,
输入变量与输出变量均为变量序列的预测问题为标注问题。
无监督学习
数据无标注,是自然得到的数据。预测模型表示数据的类别、转换或概率。本质是学习数据中的统计规律或潜在结构。
1.3 统计学习方法的三要素
模型+策略+算法
监督学习
模型:条件概率分布或决策函数
决策函数:
假设空间用表示
假设空间为函数的集合:
通常是由一个参数向量决定的函数族:
参数取值于
维欧式空间
。
例如:当模型为线性回归时。
对于一组数据
,
决策函数
向量形式为
,其中
那么这里参数空间就是由
和
组成的空间。
策略:
1、损失函数和风险函数
损失函数是和
的非负实数值,记作
。
损失函数的期望称为风险函数或期望损失。表达为:
学习的目标是选择期望风险最小的模型。
训练集的平均损失称为经验风险或经验损失。表达为:
当样本量趋向于无穷时,经验风险趋近于期望风险。
2、经验风险最小化和结构风险最小化
经验风险最小化即求解以下最优问题:
当样本量很小时,经验风险最小化学习的结果会出现过拟合现象,因此需要添加正则化项或惩罚项。表达式为:
算法:即如何求解最优模型
无监督学习
模型:函数,条件概率分布
策略:优化目标函数
算法:通常是迭代算法