数据挖掘
濯君
求知,内敛,有趣,勤静
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘--数据预处理(1)
import pandas as pd train_pd = pd.read_csv(path+'training.csv') #读取数据 test_pd = pd.read_csv(path+'sorted_test.csv') train_pd.info()#查看数据类型 train_pd.describe()#数值型变量的统计信息 train_pd.describe(include=['...原创 2019-05-03 12:02:31 · 985 阅读 · 0 评论 -
数据挖掘——数据预处理(2)
#统计缺失值 train = pd.read_csv("train.csv") null_columns=train.columns[train.isnull().any()] train[null_columns].isnull().sum()原创 2019-06-07 19:49:24 · 516 阅读 · 0 评论 -
机器学习算法模型特点总结
1.回归问题可以使用的模型 Linear and Polynomial Regression, Neural Networks, Regression Trees, Random Forests, Support Vector Regression, Naive Bayes 2.KNeighborsClassifier 特点:解决分类问题;neighbors的值设的越小,模型越复杂,方差大;nei...原创 2019-08-30 22:01:35 · 1634 阅读 · 0 评论 -
数据挖掘(数据预处理,特征工程)
1.StandardScaler 确保处理后的特征均值为0,方差为1,但是不确保特征任何特定的最大,最小值 2.RobustScaler 与StandardScaler类似,确保所有特征scale在同一规模,但是使用属性median,quartiles, 忽视outliers的影响 3.MinMaxScaler 将特征值范围scale到0,1 4.Normalizer 将数据点映射到半径为1的圆;...原创 2019-09-01 20:05:44 · 397 阅读 · 0 评论 -
Kaggle--处理缺失值
一:按缺失百分比去除缺失值过多的特征 #缺失超过77%的特征被去除 many_null_cols = [col for col in train_x.columns if train_x[col].isnull().sum() / train_x.shape[0] > 0.77] many_null_cols_test = [col for col in test.columns if te...原创 2019-09-05 11:49:00 · 794 阅读 · 0 评论
分享