机器学习杂笔记1：类型-数据集-效果评估-sklearn-机器学习算法分类

原创已于 2024-11-20 21:01:43 修改 · 514 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #sklearn

于 2024-11-20 17:25:22 首次发布

文章目录

1.类型

【1】监督学习：从成对的已经标记好的输入和输出经验数据作为一个输入进行学习，用来预测输出结果，是从有正确答案的例子中学习
任务：分类/回归

【2】无监督学习：在数据中发现一些规律
任务：聚类/降维

【3】半监督学习：介于监督学习与非监督学习之间的学习，一种增强学习，问题可以通过决策来获得反馈，但是反馈与某一个决策可能没有直接关系

2.数据集

三种类型

【1】训练集：用来进行训练（产生模型或算法）的数据集
规模：50%以上
问题：过度拟合

【2】测试集：用来专门进行测试已经学好的模型或者算法的数据集
规模：25%

【3】验证集：调整超参数变量
规模：余下部分

交叉验证

将数据集分成N块，使用N-1块进行训练，在另一块上测试。一次循环，直到每一块都测试过。

优点：
1.充分利用数据，在数据较少的情况下也能有较好的表现
2.交叉验证为模型的效果评估提供来比只有一个数据集更准确的方法

3.效果评估

1.无监督学习
真阳性（TP）：正确识别目标
假阳性（FP）：错误识别目标
真阴性（TN）：正确识别非目标
假阴性（FN）：错误识别非目标

【指标】
准确率（ACC）：（TP+TN）/（TP+TN+FP+FN）
精确率（P）：TP/（TP+FP）
召回率（R）：TP（TP+FN）

4.sklearn

sklearn.datasets.load_* 获取小规模数据集
sklearn.datasets.fetch_* 获取大规模数据

5.sklearn机器学习算法

【分类】
`K-近邻算法 sklearn.neighbors   
贝叶斯算法   sklearn.naive_bayes
逻辑回归 sklearn。linear_model.LogisticRegression
决策树与随机森林 sklearn.tree
  
 【回归】
 线性回归  sklearn.linear_model.LinearRegression
 岭回归   sklearn.linear_model.Ridge
【无监督学习】
聚类 sklearn。cluster.KMeans