Day 8 打卡标签编码和连续变量处理

最新推荐文章于 2025-12-05 17:02:52 发布

原创最新推荐文章于 2025-12-05 17:02:52 发布 · 335 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#java #前端 #服务器

@浙大疏锦行

字典的简单介绍
标签编码
连续特征的处理：归一化和标准化

字典的基本知识：

创建是通过{}或者是dict函数创建

其中是由键值对构成的，键与值之间是通过：分割。键值对之间是通过，分隔。

# 基本字典
person = {"name": "小明", "age": 20, "city": "北京"}

# 使用dict()函数创建
student = dict(name="小红", score=95, subject="数学")

通过键来访问值，同时可以进行修改和删除等操作

# 修改值
person["age"] = 21
print(person["age"])  # 输出：21

# 添加新键值对
person["gender"] = "男"
print(person)  # 输出：{'name': '小明', 'age': 21, 'city': '北京', 'gender': '男'}

正式开始今天的内容

一、标签编码：针对有顺序的离散特征

基本原理：将每个唯一的离散值映射到一个整数上，就是离散值为键，整数为值，按照一定的顺序关系进行映射

只需要先定义一个字典映射，然后应用即可

import pandas as pd
data = pd.read_csv(r'heart.csv')
discrete_feature=[]
continue_feature=[]
for feature in data.columns:
    if data[feature].dtype =='object':
        discrete_feature.append(feature)
    else:
        unique_count = data[feature].nunique()
        if unique_count<=5:
            discrete_feature.append(feature)
            print(f'分类型特征（数值编码）：{feature}，值有：{data[feature].unique()}')
        else:
            continue_feature.append(feature)
            print(f'连续特征：{feature}，共{unique_count}个不同值')
# 根据特征的实际意义，其实离散特征都已经编码好了，但为了熟悉方法，我们选取thal进行顺序编码
mapping = {1:0,2:1,3:2}
data['thal'] = data['thal'].map(mapping)

0    0.0
1    1.0
2    1.0
3    1.0
4    1.0
Name: thal, dtype: float64

二、针对连续特征进行的归一化处理和标准化处理

手动构建函数实现归一化

def my_normalize(data):
    min_val = data.min()
    max_val = data.max()
    normalized_data = (data - min_val) / (max_val - min_val)
    return normalized_data
print(my_normalize(data['age']))

0      0.708333
1      0.166667
2      0.250000
3      0.562500
4      0.583333
         ...
298    0.583333
299    0.333333
300    0.812500
301    0.583333
302    0.583333

利用sklearn库进行归一化处理

from sklearn.preprocessing import MinMaxScaler,StandardScaler
scaler_minmax = MinMaxScaler()
data['trestbps'] = scaler_minmax.fit_transform(data[['trestbps']])
print(data['trestbps'].head())

0    0.481132
1    0.339623
2    0.339623
3    0.245283
4    0.245283
Name: trestbps, dtype: float64

# 标准化处理
scaler_standard = StandardScaler()
data['chol'] = scaler_standard.fit_transform(data[['chol']])
print(data['chol'].head())


0   -0.256334
1    0.072199
2   -0.816773
3   -0.198357
4    2.082050
Name: chol, dtype: float64