文章目录
1.类型
【1】监督学习:从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习
任务:分类/回归
【2】无监督学习:在数据中发现一些规律
任务:聚类/降维
【3】半监督学习:介于监督学习与非监督学习之间的学习,一种增强学习,问题可以通过决策来获得反馈,但是反馈与某一个决策可能没有直接关系
2.数据集
三种类型
【1】训练集:用来进行训练(产生模型或算法)的数据集
规模:50%以上
问题:过度拟合
【2】测试集:用来专门进行测试已经学好的模型或者算法的数据集
规模:25%
【3】验证集:调整超参数变量
规模:余下部分
交叉验证
将数据集分成N块,使用N-1块进行训练,在另一块上测试。一次循环,直到每一块都测试过。
优点:
1.充分利用数据,在数据较少的情况下也能有较好的表现
2.交叉验证为模型的效果评估提供来比只有一个数据集更准确的方法
3.效果评估
1.无监督学习
真阳性(TP):正确识别目标
假阳性(FP):错误识别目标
真阴性(TN):正确识别非目标
假阴性(FN):错误识别非目标
【指标】
准确率(ACC):(TP+TN)/(TP+TN+FP+FN)
精确率(P):TP/(TP+FP)
召回率(R):TP(TP+FN)
4.sklearn
sklearn.datasets.load_* 获取小规模数据集
sklearn.datasets.fetch_* 获取大规模数据