字典的简单介绍 标签编码 连续特征的处理:归一化和标准化
作业:对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理,尝试手动完成,多敲几遍代码
首先是标签编码,由于心脏病数据没有字符串类型数据,所以用的还是原来的数据
首先是读取数据,然后查看分布情况,将字符串类型的数据列转化为数值,需要定义字典,对每一类型数据进行编码,编码完成后进行映射即可
import pandas as pd
data = pd.read_csv(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.csv')
print(data['Purpose'].value_counts())
napping = {
'Term':{
"Short Term":"1",
"Long Term":"0",
},
'Home Ownership':{
"Home Mortgage":"1",
"Rent":"0",
"Own Home":"2",
"Have Mortgage":"3"
}
}
data['Term'] = data['Term'].map(napping['Term'])
data['Home Ownership'] = data['Home Ownership'].map(napping['Home Ownership'])
print(data.head())
然后是连续变量的处理
主要是使用sklearn库归一化和标准化处理。
归一化有两种处理方式,时间紧迫,我只写sklearn的处理方式。
import pandas as pd
data = pd.read_csv(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\heart.csv')
from sklearn.preprocesing import StandardScaler,MinMaxScaler
min_max_scaler = MinMaxScaler()
data['chol'] =min_max_scaler.fit_transform(data[['chol']])
print(data['chol'].head())
scarl = StandardScaler()
data['trestbps'] = scarl.fit_transform(data[['trestbps']])
print(data['trestbps'].head())
这里@浙大疏锦行
282

被折叠的 条评论
为什么被折叠?



