打卡第八天

最新推荐文章于 2025-12-04 23:50:06 发布

原创最新推荐文章于 2025-12-04 23:50:06 发布 · 225 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

python机器学习入门打卡专栏收录该内容

50 篇文章

订阅专栏

字典的简单介绍标签编码连续特征的处理：归一化和标准化

作业：对心脏病数据集的特征用上述知识完成，一次性用所有的处理方式完成预处理，尝试手动完成，多敲几遍代码

首先是标签编码，由于心脏病数据没有字符串类型数据，所以用的还是原来的数据

首先是读取数据，然后查看分布情况，将字符串类型的数据列转化为数值，需要定义字典，对每一类型数据进行编码，编码完成后进行映射即可

import pandas as pd
data = pd.read_csv(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\data.csv')
print(data['Purpose'].value_counts())
napping = {
    'Term':{
        "Short Term":"1",
        "Long Term":"0",
    },
    'Home Ownership':{
        "Home Mortgage":"1",
        "Rent":"0",
        "Own Home":"2",
        "Have Mortgage":"3"
    }
}
data['Term'] = data['Term'].map(napping['Term'])
data['Home Ownership'] = data['Home Ownership'].map(napping['Home Ownership'])
print(data.head())

然后是连续变量的处理

主要是使用sklearn库归一化和标准化处理。

归一化有两种处理方式，时间紧迫，我只写sklearn的处理方式。

import pandas as pd
data = pd.read_csv(r'C:\Users\许兰\Desktop\打卡文件\python60-days-challenge-master\heart.csv')
from sklearn.preprocesing import StandardScaler,MinMaxScaler
min_max_scaler = MinMaxScaler()
data['chol'] =min_max_scaler.fit_transform(data[['chol']])
print(data['chol'].head())
scarl = StandardScaler()
data['trestbps'] = scarl.fit_transform(data[['trestbps']])
print(data['trestbps'].head())

这里@浙大疏锦行