数据挖掘项目练习
Andrewings
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘小组学习:数据探索和分析
1. 数据探索和分析1.1 读取数据1.2 探索数据1.3 数据清洗¶1.3.1 去除重复记录1.3.2 删除无关特征1.3.3 数据类型分析1.3.4 数据类型转换1.3.5 缺失值处理 1.1 读取数据 本次的数据集格式为.csv,利用pandas中的read_csv()函数读入数据集,encoding为gb18030: import pandas as pd users_data = pd....原创 2019-08-06 18:35:14 · 403 阅读 · 0 评论 -
数据挖掘小组学习:特征工程
2. 特征工程2.1 任务要求2.2 特征衍生2.3 归一化处理2.4 IV值进行特征选择计算公式WOE 2.1 任务要求 特征衍生 特征挑选:分别用IV值和随机森林等进行特征选择 ……以及你能想到特征工程处理 2.2 特征衍生 根据特征’history_suc_fee’和’history_fail_fee’计算历史借款总额和还款成功率和失败率 features = pd.concat([X_tr...原创 2019-08-09 18:08:58 · 370 阅读 · 0 评论 -
数据挖掘小组学习:模型构建与模型评估
3. 模型构建3.1 任务3.2 代码 3.1 任务 用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参) 3.2 代码 导入逻辑回归、svm、决策树、随机森林和XGBoost等模型: from sklearn.linear_model import LogisticRegression from sklearn.svm import ...原创 2019-08-11 22:10:03 · 619 阅读 · 0 评论
分享