数据挖掘（Educoder）—数据预处理(1-4题)

stella (*^▽^*)

已于 2023-03-25 14:53:02 修改

阅读量1.4k

点赞数 4

文章标签：数据挖掘 python pandas

于 2023-03-25 10:37:14 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_54483030/article/details/129712755

版权

本文介绍了四个数据预处理步骤，包括使用中位数填充缺失值，对连续数据进行离散化，执行最小最大规范化以及计算皮尔森相关系数。提供的Python函数分别实现了这些功能，如用中位数填充NaN，将数值区间映射到离散标签，以及对数据进行0-1标准化和计算特征与类别之间的相关性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第1关：缺失值—中位数填充缺失值

# -*- coding: utf-8 -*-
def fill_median(data):
    """填充数据中的缺失值
    参数:
        data - pandas.dataframe格式，原始数据

    返回值：
        processed_data - 填充后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    processed_data = data.fillna(data.median())
    #或者processed_data = processed_data.fillna(processed_data.median())
    #********** End ***********#
    return processed_data

第2关：离散化

# -*- coding: utf-8 -*-
import pandas as pd
def discretization(data):
    """对连续型数据离散化
    0-17 -> 0
    18-44 -> 1
    45-59 -> 2
    60-   -> 3
    参数:
        data - pandas.dataframe格式，原始数据中的一列

    返回值：
        processed_data - 离散化后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    bins = [0,17,44,59,120]  
    labels = ['0','1','2','3']        
    processed_data = pd.cut(data,bins,labels=labels)
    #********** End ***********#
    return processed_data

第3关：规范化—最小最大规范化

# -*- coding: utf-8 -*-
def minmax_normalization(data):
    """对给定的某一列数据进行0—1规范化
    参数:
        data - pandas.dataframe格式，原始数据集中的某一列数据
    返回值：
        normalized_data - 0-1规则化后的数据
    """
    normalized_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    normalized_data = (data-data.min())/(data.max()-data.min())
    #********** End ***********#
    return normalized_data

第4关：相关性检验—皮尔森（Pearson）系数

# -*- coding: utf-8 -*-
import numpy as np
def pearson(data_x, data_y):
    """计算某一属性列与类别的相关性
    参数:
        data_x  - pandas.dataframe格式，原始数据集中的某一列数据
        data_y  - pandas.dataframe格式，原始数据集中的类别
    返回值：
        value - pearson系数
    """
    value = 0
    #   请在此添加实现代码     #
    #********** Begin *********#
    #方法一
	XMean = np.mean(data_x)
	YMean = np.mean(data_y)
	#标准差
	XSD = np.std(data_x)
	YSD = np.std(data_y)
	#z分数
	ZX = (data_x-XMean)/XSD
	ZY = (data_y-YMean)/YSD
    #相关系数
	value = np.sum(ZX*ZY)/(len(data_x))

    #方法二:直接算
    n = len(data_x)
    sum_xy = np.sum(np.sum(data_x*data_y))
    sum_x = np.sum(np.sum(data_x))
    sum_y = np.sum(np.sum(data_y))
    sum_x2 = np.sum(np.sum(data_x*data_x))
    sum_y2 = np.sum(np.sum(data_y*data_y))
    value = (n*sum_xy-sum_x*sum_y)/np.sqrt((n*sum_x2-sum_x*sum_x)*(n*sum_y2-sum_y*sum_y))
    #********** End ***********#
    return ("%.4f" % value)