
数据挖掘建模 算法实现篇(python)
数据挖掘建模 算法篇 python实现
skyHdd
deep work,simple life
展开
-
数据平滑 log1p
数据平滑处理 – log1p( ) 和 exmp1( )在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量.数据预处理时首先可以对偏度比较大的数据用og1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。平滑问题很容易处理掉,原创 2020-07-10 22:20:49 · 1054 阅读 · 1 评论 -
类别不均衡(目标变量)
查看数据比例from collections import Counter# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据y.value_counts().plot(kind='pie')print(Counter(y))# Counter({0: 900, 1: 100})SMOTE 过采样# 过采样import imblearnfrom imblearn.over_sampling import SMOTEsm = SMOTE(random_state=42原创 2020-07-09 22:21:02 · 1504 阅读 · 0 评论 -
sklearn 细节总结
sklearn 细节总结1、数据集划分随机划分分层划分1、数据集划分随机划分from sklearn.model_selection import train_test_split#data:需要进行分割的数据集#random_state:设置随机种子,保证每次运行生成相同的随机数#test_size:将数据分割成训练集的比例train_set, test_set = train_test_split(data, test_size=0.2, random_state=42)分层划分常用于原创 2020-06-23 20:08:23 · 267 阅读 · 0 评论 -
特征选择:贪心算法和其评价矩阵的AUC
"""Greedy Feature Selection using Logistic Regression as base modelto optimize Area Under the ROC Curve"""import numpy as npimport sklearn.linear_model as lmfrom sklearn import metrics, preprocessingclass greedyFeatureSelection(object): d原创 2020-06-04 22:46:28 · 1327 阅读 · 0 评论 -
数值数据分析流
数值数据分析流引入框架数据分析流框架理解1、需求2、y量化3、x选择4、描述4.1图形4.2统计量5、预分析(特征工程,流程化和模块化)5.1、异常值单变量异常值多变量异常值5.2、缺失值单变量缺失值多变量缺失值5.3、特征筛选单变量特征筛选多变量特征筛选5.4、共线性 scipy.optional单变量多变量5.5、变换单变量多变量5.6、编码单变量编码多变量编码6、建模(大模型:机器学习)小数据算法:8 statsmodel 小数据大数据算法:20 sklearn 大数据7、修正7.1、残差7.原创 2020-05-26 23:09:08 · 515 阅读 · 0 评论 -
【数据挖掘算法实现】决策树sklearn实现
决策树算法实现决策树模型介绍(什么场景使用)优点缺点决策树思维导图决策树算法实现 python(参数控制)决策树模型介绍(什么场景使用)决策树 -有监督(有y)产生的模型具有可解释性。决策树不仅可以用来构建模型也可以用来筛选变量。(决策树用一个递归的过程将数据切分成越来越小的单元格中,单元格中数据逐步得到‘净化’,在这个过程中,决策树会选择出对有知道数据挖掘任务最重要的那些变量)决策树...原创 2020-04-27 21:51:37 · 367 阅读 · 0 评论