
数据挖掘
qmys
这个作者很懒,什么都没留下…
展开
-
精通特征工程 —— 2.简单得数字奇特技巧
文章目录1.二值化2.区间量化(分箱)3.对数变换4.特征缩放归一化5.交互特征6.特征选择1.二值化# Echo Nest 品味画像数据集的统计# 使 Million Song 数据集中听歌计数二进制化import pandas as pdf = open(r'data/train_triplets.txt')listen_count = pd.read_csv(f, header=...原创 2019-08-07 13:51:04 · 3878 阅读 · 2 评论 -
数据挖掘 —— 金融数据(二)
特征工程任务二特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理# 导入需要的包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.model_selection import train_tes...原创 2019-08-09 17:33:42 · 905 阅读 · 0 评论 -
数据挖掘 —— 金融数据(六)
Task6 模型融合模型融合方式任意,并结合Task5给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果# 导入库from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import LinearSVCfrom skl...原创 2019-08-19 13:07:59 · 239 阅读 · 0 评论 -
数据挖掘 —— 金融数据(四)
task4记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线# 导入库from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import LinearSVCfrom sklearn....原创 2019-08-14 16:17:13 · 545 阅读 · 0 评论 -
数据挖掘 —— 金融数据(三)
task3用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参)# 导入库from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import LinearSVCfrom sklearn.tree import DecisionTreeClassif...原创 2019-08-11 20:55:06 · 267 阅读 · 0 评论 -
数据挖掘 —— 金融数据(五)
task 5 模型调优使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果。GridSearchCV自动调参,输入参数 ==> 输出最优化结果和参数(适用于小数量级)参数说明:(1) estimator:选择使用的分类器,并且传入除需要确定最佳的参数之外的其他参数。每一个分类器都需要一个scoring参数,或者score方法:如e...原创 2019-08-15 16:40:28 · 456 阅读 · 0 评论