Day 8 打卡 标签编码和连续变量处理

@浙大疏锦行

  • 字典的简单介绍
  • 标签编码
  • 连续特征的处理:归一化和标准化

字典的基本知识:

创建是通过{}或者是dict函数创建

其中是由键值对构成的,键与值之间是通过:分割。键值对之间是通过,分隔。

# 基本字典
person = {"name": "小明", "age": 20, "city": "北京"}

# 使用dict()函数创建
student = dict(name="小红", score=95, subject="数学")

通过键来访问值,同时可以进行修改和删除等操作

# 修改值
person["age"] = 21
print(person["age"])  # 输出:21

# 添加新键值对
person["gender"] = "男"
print(person)  # 输出:{'name': '小明', 'age': 21, 'city': '北京', 'gender': '男'}

正式开始今天的内容

一、标签编码:针对有顺序的离散特征

基本原理:将每个唯一的离散值映射到一个整数上,就是离散值为键,整数为值,按照一定的顺序关系进行映射

只需要先定义一个字典映射,然后应用即可

import pandas as pd
data = pd.read_csv(r'heart.csv')
discrete_feature=[]
continue_feature=[]
for feature in data.columns:
    if data[feature].dtype =='object':
        discrete_feature.append(feature)
    else:
        unique_count = data[feature].nunique()
        if unique_count<=5:
            discrete_feature.append(feature)
            print(f'分类型特征(数值编码):{feature},值有:{data[feature].unique()}')
        else:
            continue_feature.append(feature)
            print(f'连续特征:{feature},共{unique_count}个不同值')
# 根据特征的实际意义,其实离散特征都已经编码好了,但为了熟悉方法,我们选取thal进行顺序编码
mapping = {1:0,2:1,3:2}
data['thal'] = data['thal'].map(mapping)
0    0.0
1    1.0
2    1.0
3    1.0
4    1.0
Name: thal, dtype: float64

二、针对连续特征进行的归一化处理和标准化处理

手动构建函数实现归一化

def my_normalize(data):
    min_val = data.min()
    max_val = data.max()
    normalized_data = (data - min_val) / (max_val - min_val)
    return normalized_data
print(my_normalize(data['age']))
0      0.708333
1      0.166667
2      0.250000
3      0.562500
4      0.583333
         ...
298    0.583333
299    0.333333
300    0.812500
301    0.583333
302    0.583333

利用sklearn库进行归一化处理

from sklearn.preprocessing import MinMaxScaler,StandardScaler
scaler_minmax = MinMaxScaler()
data['trestbps'] = scaler_minmax.fit_transform(data[['trestbps']])
print(data['trestbps'].head())

0    0.481132
1    0.339623
2    0.339623
3    0.245283
4    0.245283
Name: trestbps, dtype: float64
# 标准化处理
scaler_standard = StandardScaler()
data['chol'] = scaler_standard.fit_transform(data[['chol']])
print(data['chol'].head())


0   -0.256334
1    0.072199
2   -0.816773
3   -0.198357
4    2.082050
Name: chol, dtype: float64

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值