Ex1 使用决策树分类方法对鸢尾花数据集进行分类。
Ex2 使用逻辑回归模型对鸢尾花数据集进行分类。
Ex3分别使用准确率(accuracy)、ROC曲线、AUC作为评价指标对比Ex1和Ex2实验结果。
Ex4 实现Kaggle电信用户流失分类
1)样本数据分析
该实例数据同样来自Kaggle,它的每一条数据为一个用户的信息,共有21个有效字段,其中,最后一个字段Churn标志该用户是否流失。运用numpy和pandas等工具对数据进行初步分析,尽量理解特征之间的关系。
- 分析实验要求
- 分析实验数据的完整性、重复性
- 分析实验数据各特征之间的关联关系
2)用户画像
运用各类分析工具对流失用户和非流失用户进行特征分析,说明流失用户和非流失用户的特点。
- 分析各特征与用户是否流失的关系
- 综合上述关系,给出流失用户和非流失用户的特点
3)分类算法建模及分析
运用各类分类算法对数据进行建模,包括:逻辑回归模型、决策树模型、随机森林模型。并用准确率和AUC指标对它们的预测效果进行评估。
- 编码、特征提取
- 数据预处理
- 学习分类算法的应用方法
- 对样本数据进行建模
- 用准确度指标和AUC指标评估模型
- 记录并分析实验结果
- Ex1源代码:
import pandas as pd from sklearn.datasets import load_iris iris = load_iris() iris_df = pd.DataFrame(iris.data, index = iris.target, columns = iris.feature_names) from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(iris_df, iris.target, train_size = 0.55) #使