
数据挖掘
爱吃文字的鲸鱼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘task1
【任务1 - 数据分析(2天)】 要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018 任务1:对数据进行探索和分析。时间:2天 数据类型的分析 无关特征删除 数据类型转换 缺失值处理 ……以及你能想到和借鉴的数据分析处理 读入数据import pandas as pddata = pd.read_csv("F:/data_mining/dat...原创 2019-03-02 15:32:36 · 177 阅读 · 0 评论 -
task4-模型评估
【模型评估(2天)】 记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线。from sklearn.metrics import accuracy_score, recall_score, f1_score, roc_auc_score, roc_curvef...转载 2019-03-08 19:13:10 · 232 阅读 · 0 评论 -
task3-模型构建
【模型构建(2天)】 用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参)from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import SVCfrom sklearn.tree import DecisionTreeClassifier...转载 2019-03-06 20:29:23 · 194 阅读 · 0 评论 -
Task2-特征工程
【特征工程(2天)】 对数据特征进行衍生和进行特征挑选。特征衍生 特征挑选:分别用IV值和随机森林等进行特征选择 ……以及你能想到特征工程处理特征衍生特征衍生的方法有:1.利用决策树、线性组合等方法创造新特征2.将特征升维特征挑选:1.过滤法2.嵌入法3.利用IV值和决策树进行特征挑选参考:https://cloud.tencent.com/devel...原创 2019-03-04 19:53:58 · 180 阅读 · 0 评论 -
task5-模型调优
【模型调优(2天)】 使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果。使用网格搜索法对5个模型进行调优import pandas as pd from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import Logist...转载 2019-03-11 16:34:07 · 159 阅读 · 0 评论 -
task6-模型融合
【模型融合(2天)】 模型融合,模型融合方式任意,并结合Task5给出你的最优结果。 例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。from mlxtend.classifier import StackingCVClassifier, StackingClassifiers_clf = StackingCl...转载 2019-03-13 16:34:24 · 206 阅读 · 0 评论