连续数值数据和有意义的离散数据,才能够送入到模型进行训练, 对于缺失值、字符串数据和离散数据必须做处理
1 缺失值检测和处理
(1)检测
df.info() 或 df.isnull()
数据量比较大:用np.sum(df.isnull().any()) 和 np.sum(df.isnull().all())
(2)处理
a.删除法;
DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
axis=0 : 按行删除; axis=1, 按列删除
b.替补法:均值、众数、中位数;
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
c.插补法
2 离散数据处理
主要是独热编码和映射处理
(1) 离散特征的取值没有大小意义
比如 book :[Chinese, math, history], 那么就使用独热编码
——如果是字符串数据,比如 book :[Chinese, math, history]
直接独热编码:pandas.get_dummies
——如果是数字数据
将其转化为array数据结构, 再调用sklearn.preprocessing.OneHotEncoder() 对其进行编码

最低0.47元/天 解锁文章
2735

被折叠的 条评论
为什么被折叠?



