day5
离散特征的独热编码
先按照示例代码过一遍,然后完成下列题目
现在在py文件中 一次性处理data数据中所有的连续变量和离散变量
1. 读取data数据
2. 对离散变量进行one-hot编码
3. 对独热编码后的变量转化为int类型
- 对所有缺失值进行填充
注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看
注意此时你可以借助下面的调试控制台 来进行值的查看
注意:这里区分离散变量仅仅通过object类型,实际中还需要结合对数据的认识,这里为了方便没有考虑现实意义。
随着学习往后,需要了解的函数越来越多。
可以鼠标悬停来查看每个函数的参数,这里采用了类型注解写法,可以看到每个参数的要求类型,同时可以看到参数的默认值,如果没有默认值就是必填参数。
import pandas as pd
data = pd.read_csv('data.csv') #此时data是一个DataFrame对象
for discrete_features in data.columns:
if data[discrete_features].dtype == 'object':
print(discrete_features)
data['Purpose'].value_counts()
data = pd.get_dummies(data, columns=['Purpose'])
print(data.columns)
print(data.head())
#data['Purpose'] =data ['Purpose'].astype(int)
#data['Purpose']
补充题目:
尝试着对项目二的数据也用一遍上述流程做一遍。可以看到所有类似的数据处理流程都是一致的
PS:遇到一些困难,明天攻克