第一章 统计学习方法概论
1.1 统计学习
1、统计学习的特点
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行观测与分析的一门学科,也称为机器学习。
2、统计学习的对象
对象是数据。从数据出发,提取数据特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与观测中去。
3、统计学习的目的
统计学习用于对数据进行预测与分析,特别是对位置新数据进行预测与分析,对数据的预测可以使计算机更加智能化。
4、统计学习的方法
分为监督学习,非监督学习,半监督学习和强化学习。
方法:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的,并且假设要学习的模型属于
某个函数的集合,成为假设空间,应用某个评价准测,从假设空间中选取一个最优的模型,使它对已知训练数据以及未
知测试数据在给定的评价准测下有最优的预测,最优模型的选取由算法实现。
统计学习三要素:模型、策略、算法。
1.2 监督学习
监督学习的任务是学习一个模型,是模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
1.2.1 基本概念
1.输入空间、特征空间与输出空间
在监督学习中,将输入与输入所有可能取值的集合称为输入空间与输出空间。
每个具体的输入是一个实例,通常有特征向量表示。所有特征向量存在的空间称为特征空间,其每一维对应一个特征。
输入实例x的特征向量记作
监督学习从训练数据集合中学习模型,对测试数据进行预测。输入输出对又称为样本或样本点。
(1)、输入变量与输出变量均为连续变量的预测问题称为回归问题;
(2)、输出变量为有限个变量的预测问题称为分类问题;
(3)、输入变量与输出变量均为变量序列的预测问题称为标注问题。
2、联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数或分布密度函数。
3、假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,称为假设空间。
由条件概率分布P(X|Y)或决策函数Y=f(X)表示。
1.2.2 问题的形式化
监督学习分为学习和预测两个过程,由学习系统与预测系统完成。
在学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布P’(Y|X)或决策函数Y=f’(X)。
在预测过程中,预测系统对于给定的测试样本集中的输入Xn+1,由模型给出响应的输出。
1.3 统计学习三要素
方法=模型+策略+算法