【Excel 数据填充 之 使用平均值填充的方法】

文章目录

整体逻辑

  1. 首先对数据进行清洗:数据标准化、数据集的切分、删除空数据行等。
  2. 数据中存在空缺,进行填充,使用的方法是用平均值的方法对数据进行填充
  3. 使用smote算法实现数据集的拟合
  4. 调用pandas库绘制每个类别的数据个数图
  5. 保存数据为excel文件,注意:测试集不用传入模型训练!

代码实现

import pandas as pd
import matplotlib.pyplot as plt

'''---------------------使用平均值的方法对数据进行填充-----------------------'''
def mean_train_method(data):
    '''平均值的计算方法'''
    fill_values = data.mean()
    return data.fillna(fill_values)  # 使用均值填充缺失值,pandas读取表格数据,数据清洗。

def mean_train_fill(train_data,train_label):
    '''使用平均值的方法对数据进行填充'''
    data = pd.concat([train_data, train_label], axis=1)
    data = data.reset_index(drop=True)
    A = data[data['矿物类型'] == 0]
    B = data[data['矿物类型'] == 1]
    C = data[data['矿物类型'] == 2]
    D = data[data['矿物类型'] == 3]

    A = mean_train_method(A)  # 按照每个类别的数据进行填充
    B = mean_train_method(B)  # 按照每个类别的数据进行填充
    C = mean_train_method(C)  # 按照每个类别的数据进行填充
    D = mean_train_method(D)  # 按照每个类别的数据进行填充

    df_filled = pd.concat([A, B, C, D])
    df_filled = df_filled.reset_index(drop=True)
    return df_filled.drop('矿物类型', axis=1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值