
数据挖掘基础
菜不卷
过去我没得选,现在我想做好人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习 & 数据处理零散知识点
缺失值处理方法综述1.删除。缺失值达到一定比例后(比例数值主观判断),直接删除吧。因为缺失值填补会在一定程度上改变数据的分布。**2.人工填补法。**人工智能还是依赖于人工。**3.特殊值处理。**类别特征存在缺失时,该方法容易理解。数值型特征缺失时,不建议使用。另外使用该方法会改变数据分布,所以并不建议使用。4.同类填充(我自己命名)。缺失值为类别特征时,分析关联特征,然后进行groupby,使用该分组中的众数进行填充。数值型特征操作方法一致,但是田中方法可以换成均值,中位数,均值与中位数加权和原创 2020-08-02 12:32:43 · 207 阅读 · 0 评论 -
使用sklearn实现类别编码和onehot编码
from numpy import arrayfrom numpy import argmaxfrom sklearn.preprocessing import LabelEncoderfrom sklearn.preprocessing import OneHotEncodervalues = array(['cold', 'cold', 'warm', 'cold', 'hot', 'hot', 'warm', 'cold', 'warm', 'hot'])进行类别编码label_enco原创 2020-08-02 11:54:28 · 907 阅读 · 0 评论 -
ValueError: Input contains NaN, infinity or a value too large for dtype(‘float64‘)
这两天遇见一个问题,数据使用Rdige建模,始终显示存在缺失值。但是train_data.isnull()sum()却显示没有,所有数据都是数值型。解决方法:data =data[~data.isin([np.nan, np.inf, -np.inf]).any(1)]原创 2020-07-31 18:54:41 · 389 阅读 · 0 评论 -
使用sklearn进行数据Min-Max归一化
from sklearn import preprocessingmaxmin = preprocessing.MinMaxScaler()all_data_s = maxmin.fit_transform(all_data)原创 2020-07-13 08:10:46 · 2302 阅读 · 0 评论 -
3detla法处理异常值
class deals_abnormal_by_3delta(): ''' 3*delta法处理异常值 属性: self.data :data的浅复制 self.scale :默认为3 self.val_low:下边界 self.val_high:上边界 self.high_index:触犯了上边界的索引 self.low_index:触犯了下边界的索引 self.all_原创 2020-07-12 13:39:40 · 564 阅读 · 0 评论 -
数据处理中常用的方法(不定期更新)
本博文是博主在Python数据处理中中遇见的一些常用的的Python方法合集,方便博主自己查询使用,不定期更新。1.数据的统计数据2.删除缺失值https://blog.youkuaiyun.com/lwgkzl/article/details/809485483.特征相关性示例:corr = Train_data_s.corr()该方法会显示数据集中所有二二特征的相关性,配合heatmap食用口感更佳4.数据按照特征分组示例:data_temp = train_data.groupby(’Sex原创 2020-06-21 17:33:00 · 1653 阅读 · 0 评论