1.1、统计学习
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。
赫尔伯特,西蒙(Herbert A.Simon)曾对“学习”给出以下定义:如果一个系统能够通过知行某个过程改进它的性能,这就是学习。
统计学习的对象是数据(data)
统计学习的目的:就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习的效率。
统计学习的三要素:1、模型(model);2、策略(strategy);3、算法(algorithm);
实现统计学习方法的步骤如下:
(1)、得到一个有限的训练数据集合
(2)、确定包含所有可能的模型的假设空间,即学习模型的集合
(3)、确定模型的选择的准则,即学习的策略
(4)、实现求解最优模型的算法,即学习的算法
(5)、通过学习方法选择最优模型
(6)、利用学习的最优模型对新数据进行预测或分析
1.2、监督学习
统计学习包括:1、监督学习(supervised learning);2、非监督学习;3、半监督学习;4、强化学习;
基本概念:
1、每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示,这时,所有特征向量存在的空间称为特征空间(feature space)。
2、模型实际上都是定义在特征空间上的
3、监督学习从