数据挖掘(Educoder)—数据预处理(1-4题)

本文介绍了四个数据预处理步骤,包括使用中位数填充缺失值,对连续数据进行离散化,执行最小最大规范化以及计算皮尔森相关系数。提供的Python函数分别实现了这些功能,如用中位数填充NaN,将数值区间映射到离散标签,以及对数据进行0-1标准化和计算特征与类别之间的相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第1关:缺失值—中位数填充缺失值 

# -*- coding: utf-8 -*-
def fill_median(data):
    """填充数据中的缺失值
    参数:
        data - pandas.dataframe格式,原始数据

    返回值:
        processed_data - 填充后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    processed_data = data.fillna(data.median())
    #或者processed_data = processed_data.fillna(processed_data.median())
    #********** End ***********#
    return processed_data

第2关:离散化

# -*- coding: utf-8 -*-
import pandas as pd
def discretization(data):
    """对连续型数据离散化
    0-17 -> 0
    18-44 -> 1
    45-59 -> 2
    60-   -> 3
    参数:
        data - pandas.dataframe格式,原始数据中的一列

    返回值:
        processed_data - 离散化后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    bins = [0,17,44,59,120]  
    labels = ['0','1','2','3']        
    processed_data = pd.cut(data,bins,labels=labels)
    #********** End ***********#
    return processed_data

第3关:规范化—最小最大规范化

# -*- coding: utf-8 -*-
def minmax_normalization(data):
    """对给定的某一列数据进行0—1规范化
    参数:
        data - pandas.dataframe格式,原始数据集中的某一列数据
    返回值:
        normalized_data - 0-1规则化后的数据
    """
    normalized_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    normalized_data = (data-data.min())/(data.max()-data.min())
    #********** End ***********#
    return normalized_data

 第4关:相关性检验—皮尔森(Pearson)系数

# -*- coding: utf-8 -*-
import numpy as np
def pearson(data_x, data_y):
    """计算某一属性列与类别的相关性
    参数:
        data_x  - pandas.dataframe格式,原始数据集中的某一列数据
        data_y  - pandas.dataframe格式,原始数据集中的类别
    返回值:
        value - pearson系数
    """
    value = 0
    #   请在此添加实现代码     #
    #********** Begin *********#
    #方法一
	XMean = np.mean(data_x)
	YMean = np.mean(data_y)
	#标准差
	XSD = np.std(data_x)
	YSD = np.std(data_y)
	#z分数
	ZX = (data_x-XMean)/XSD
	ZY = (data_y-YMean)/YSD
    #相关系数
	value = np.sum(ZX*ZY)/(len(data_x))

    #方法二:直接算
    n = len(data_x)
    sum_xy = np.sum(np.sum(data_x*data_y))
    sum_x = np.sum(np.sum(data_x))
    sum_y = np.sum(np.sum(data_y))
    sum_x2 = np.sum(np.sum(data_x*data_x))
    sum_y2 = np.sum(np.sum(data_y*data_y))
    value = (n*sum_xy-sum_x*sum_y)/np.sqrt((n*sum_x2-sum_x*sum_x)*(n*sum_y2-sum_y*sum_y))
    #********** End ***********#
    return ("%.4f" % value)

安装Docker安装插件,可以按照以下步骤进行操作: 1. 首先,安装Docker。可以按照官方文档提供的步骤进行安装,或者使用适合您操作系统的包管理器进行安装。 2. 安装Docker Compose插件。可以使用以下方法安装: 2.1 下载指定版本的docker-compose文件: curl -L https://github.com/docker/compose/releases/download/1.21.2/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose 2.2 赋予docker-compose文件执行权限: chmod +x /usr/local/bin/docker-compose 2.3 验证安装是否成功: docker-compose --version 3. 在安装插件之前,可以测试端口是否已被占用,以避免编排过程中出错。可以使用以下命令安装netstat并查看端口号是否被占用: yum -y install net-tools netstat -npl | grep 3306 现在,您已经安装Docker安装Docker Compose插件,可以继续进行其他操作,例如上传docker-compose.yml文件到服务器,并在服务器上安装MySQL容器。可以参考Docker的官方文档或其他资源来了解如何使用DockerDocker Compose进行容器的安装和配置。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Docker安装docker-compose插件](https://blog.youkuaiyun.com/qq_50661854/article/details/124453329)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [Docker安装MySQL docker安装mysql 完整详细教程](https://blog.youkuaiyun.com/qq_40739917/article/details/130891879)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值