Day5打卡独热编码

最新推荐文章于 2025-12-05 17:02:52 发布

原创最新推荐文章于 2025-12-05 17:02:52 发布 · 241 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习

Python训练营二期专栏收录该内容

12 篇文章

订阅专栏

题目：离散特征的独热编码

应该先填补缺失值，再独热编码。【如果顺序颠倒的话，用众数补全，比如北京上海深圳001，有可能三个数的众数都是0，就会变成000。】

#读取数据
import pandas as pd  
data = pd.read_csv('data.csv')  #此时data是一个DataFrame对象
 
# day4的课提到了 查看dataframe对象的列名，可以使用data.columns属性。
data.columns 

# 打印所有的离散变量名
for discrete_features in data.columns:
    if data[discrete_features].dtype == 'object':
        print(discrete_features)#打印离散变量名
[在python中对于变量名常常用英文含义和下划线来命名，而不借助拼音，这是便于他人阅读和理解代码的一种习惯。连续的英文是continuous，离散的英文是discrete]

# 以Home Ownership为例，打印观察下
data['Home Ownership']
# 需要进行编码，打印这个变量的值
# vakue_counts()方法用于统计每个类别的个数，并返回一个Series对象。这个方法可以帮助我们快速了解数据集中每个类别的分布情况。【判断是否具备顺序关系】
data['Home Ownership'].value_counts()

 
# 对离散变量【Home Ownership列】进行独热编码[不具备顺序关系]
# 这里的drop_first=True表示删除第一个特征，避免出现共线性
# 这里的data是一个DataFrame对象，columns是一个列表，存放离散变量名
data = pd.get_dummies(data, columns=['Home Ownership'])
data.columns
 
[data.head()]
# 独热编码后的数据是bool类型，试着转换为int类型，因为后续可能有的函数计算不支持bool值
# 学习类型转换的方法
data['Home Ownership_Have Mortgage'] =data ['Home Ownership_Have Mortgage'].astype(int)
data['Home Ownership_Have Mortgage']

到此为止，已经掌握了对离散变量做独热编码的所有方法

1. 找到离散变量

2. 独热编码映射

3. 转换独热编码到int类型

4. 填补每一列的缺失值

# 现在尝试结合之前的代码一次性对所有离散特征独热编码
# 重新读取数据
data = pd.read_csv("data.csv")
# 找到离散变量
discrete_lists = [] # 新建一个空列表，用于存放离散变量名
for discrete_features in data.columns:
    if data[discrete_features].dtype == 'object':
        discrete_lists.append(discrete_features)
 
# 离散变量独热编码
data = pd.get_dummies(data, columns=discrete_lists, drop_first=True) 

data.columns

#如何找到所有独热编码后的新特征名
# 对比独热编码前后的列名 即可
data2 = pd.read_csv("data.csv")
list_final = [] # 新建一个空列表，用于存放独热编码后新增的特征名
for i in data.columns:
    if i not in data2.columns:
       list_final.append(i) # 这里打印出来的就是独热编码后的特征名
list_final
 
# 其实还可以通过data.columns.difference()方法来实现
import pandas as pd
# 假设data是原始数据框
original_columns = data.columns
# 进行独热编码
data_encoded = pd.get_dummies(data)
# 获取新增的特征名
new_features = data_encoded.columns.difference(original_columns)
print("独热编码后的新特征名：")
print(new_features.tolist())
# 可以看到 想要实现一个结果有很多不同方法
 
# 接着之前的，对bool特征进行类型转换
for i in list_final:
    data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名
data.head()
 
# 填补每一列的缺失值
data.dtypes
data.isnull().sum() # 统计每一列的缺失值个数
 
# 用均值填补
# 循环遍历这个列表中的每一列
for i in data.columns:
    if data[i].isnull().sum() > 0: # 找到存在缺失值的列
        #计算该列的均值
        mean_value = data[i].mean()
        #用均值填充缺失值
        data[i].fillna(mean_value, inplace=True)
 
data.isnull().sum()