统计学习三要素:模型 策略 算法
1.1 统计学习
1.统计学习的主要特点
以计算机及网络为平台;以数据为研究对象,数据驱动;对数据进行预测和分析;以方法为中心,统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测和分析;是交叉学科。
如果一个系统能够通过执行某个过程改进它的性能,这就是学习。
统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
2.统计学习的对象
统计学习的对象是数据,它从数据出的出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测当中。
统计学习的前提:同类数据{指:具有某种共同性质的数据,例如英语文章、互联网网页、数据库中的数据等}具有一定的统计规律性。 比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
3.统计学习的目的
统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。
对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;
对数据的分析可以让人们获得新的知识,给人们带来新的发现。
对数据的预测与分析是通过构建概率统计模型实现的,统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
4.统计学习的方法
统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
监督学习:从给定的、有限的、用于学习的训练数据(supervised learning)集合出发。
假设1:数据是独立同分布产生的;
假设2:要学习的模型属于某个函数的集合,称为假设空间(hypothesis space)
应用某个评价准则从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;
最优模型的选取由算法实现
这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,
统称为统计学习方法的三要素,简称为模型、策略和算法。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合。
(3)确定模型选择的准则,即学习的策略。
(4)实现求解最优解的算法,即学习的算法。
(5)通过学习方法选择最优模型。
(6)利用学习的最优模型对新数据进行预测或分析。