
数据预处理
跳蚤梅西
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据预处理:二值化与分段(连续型特征)
Binarizer类和KBinsDiscretizer类1:根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。观察数据from sklearn.preprocessing import Binarizer# 把大于30的年龄的人分类到1,小于30的为0# 类为特征专用,不能使用一维数组X = data.iloc[:, 0].values.reshape(-1, 1) trans原创 2021-02-08 17:55:41 · 1407 阅读 · 1 评论 -
数据预处理:one-hot编码(离散型特征)
前面介绍了LabelEnconder和OrdanalEncoder,本文介绍OneHotEnconder.如下贴图表示三个类的区别:再贴一张关于数据类型以及常用的统计量图sklearn.preprocessing.OneHotEnconder类实现独热编码(1)观察数据(2)实现Sex和Embarked两列的独热编码示例直接生成from sklearn.preprocessing import OneHotEncoderX = data.iloc[:, 1:-.原创 2021-02-08 15:29:26 · 1069 阅读 · 0 评论 -
数据预处理:分类特征转为分类数值(离散型特征)
分类转换为分类数值1:通过sklearn中的preprocessing模块完成(1)观察数据 (2)标签列编码Survived为标签列,将标签列转换为分类数值。通过sklearn.preprocessing.LabelEnconder完成,该类专门用于处理分类标签数据转换成分类数值from sklearn.preprocessing import LabelEncoder y = data.iloc[:, -1] ...原创 2021-02-08 13:37:21 · 3032 阅读 · 0 评论