泰迪杯数据挖掘挑战赛—机器学习（二）

最新推荐文章于 2022-12-16 17:00:45 发布

Champion.XL

最新推荐文章于 2022-12-16 17:00:45 发布

阅读量589

点赞数 2

分类专栏： Python数据挖掘文章标签：数据挖掘机器学习大数据 python 深度学习

本文链接：https://blog.youkuaiyun.com/qq_45675616/article/details/116865115

版权

Python数据挖掘专栏收录该内容

5 篇文章

订阅专栏

机器学习（二）

机器学习（二），用于机器学习的数据一定要是数据平衡的，如果数据严重失衡的话，那么对于机器学习来说，可能会学习不出什么出来。就好比这次的赛题来说，造假公司与非造假公司的数量比达到了1:100，如果直接使用这样不平衡的数据去进行机器学习，那么就会导致训练的结果偏向于非造假公司，可能到时候预测出来的结果会公司全是非造假公司。

数据不平衡处理（过采样）

在进行机器学习之前，我们首先要搞清楚，选着哪一种机器学习来建立模型，在比较机器学习时，用什么指标进行比较。这是我们在进行机器学习之前需要考虑的。

交叉验证

将给定的数据划分为训练集与测试集。为了更好的训练模型，继续将训练集划分成n块，1块作为验证集，剩余n-1块作为子训练集，验证集依次从第一块取到第n块。将模型训练n次，比较结果，选取恰当的参数值作为模型的参数值。
在这里插入图片描述

混淆矩阵

上面介绍了训练模型的方法，下面就要寻找评判指标呢，这里评判指标的主要作用是，评判模型是否合乎需求，预测出来的数据是否准确。

在这里插入图片描述

#导入相关包
from sklearn.metrics import confusion_matrix
#真实值
true1 = [0,0,0,0,1,1,0,0,1,1]
#预测的值
test1 = [0,0,1,0,1,1,0,0,1,0]
test2 = [0,0,0,0,1,1,1,1,0,1]
#打印混淆矩阵  参数为：测试值，真实值
cnf_m =confusion_matrix(test2,true1)