统计学习方法之概述
1.统计学习的特点
(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;
(2) 统计学习以数据为研究对象,是数据驱动的学科
(3) 统计学习的目的是对数据进行预测与分析;
(4) 统计学习以方法为中心,统计学习方法构建模型井应用模型进行预测与分析;
(5) 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论
2.统计学习的步骤
(1)得到一个有限的训练、数据集合;
这一步的目的就是获取数据集,很多时候的数据集其实是我们通过爬虫的技术自己进行爬取得到的,但也有一些通用的数据集,比如说图像识别里面的voc数据集还有coco数据集等等的一些。
(2)) 确定包含所有可能的模型的假设空间,即学习模型的集合;
通俗点讲就是检索所有相关的的模型
(3) 确定模型选择的准则,即学习的策略;
找出最合适你想使用的一种算法的模型,其目的是提高准确率等一些参数
(4) 实现求解最优模型的算法,即学习的算法;
学习预测,通俗讲就是让你的模型通过你的数据集进行学习
(5) 通过学习方法选择最优模型;
通过对学习的效率的对比,选择出最合理的模型,以及调好相关的参数
(6)利用学习的最优模型对新数据进行预测或分析。
把学习好的模型进行应用的实战,实现最后的预测工作,其实在上面的步骤里还可以加入验证集,其目的就是检验你算法模型学习能力的强弱,来对它进行的考核考验
3.监督学习
(1)监督学习
监督学习是指从标注数据中学习预测模型的机器学习问题。通俗一点讲就是你的数据集里包含了部分输出的预测结果,然后你给新的条件让它在进行一些预测工作,比如说就是红色的,硬的,香的苹果我给定它可以被当作是一个好苹果,这里面的红色的,硬的,香的就可以作为数据的特征,不同的特征叫做不同的维度,被当作好苹果就可以当作是一个标签,也可以当作是已知的预测结果,比如说再让你预测一个别的特征的苹果是否是好苹果,这就是一个典型的监督学习的例子,它与无监督最大的区别就是是否包含标签。
再解释几个专业的名词:输入空间,输出空间,特征空间,其实简单理解就是将输入与输出所有可能取值的集合分别称为输入空间与输出空间,他在形式上其实多样性的,包含任意的属性东西,可以是有限的集合也可以是整个欧式集合。特征空间就是特征向量组成的集合,以及对于维度的定义在前面几句话里都解释清楚了,不做过多的阐述。
在监督学习中,输入输出变量用大写字母表示,习惯上输入变量写作X输出变量写为Y。输入输出变量的取值用小写字母x表示,输入变量的取值用小写字母y表示,变量可以是标量或向量,都用相同类型字母表示。