数据探索

本文主要介绍了数据探索的过程,包括导入必要的库,加载数据集,分析数据集的内存占用、空值信息和数据类型。接着,对特征的统计量、数据维度、列名进行展示,并探讨了缺失值的情况,特别是那些缺失率超过50%的特征。同时,详细检查了只有一值的特征在训练集和测试集中的情况,区分了类别型和数值型特征,并分析了它们之间的关系。

导入库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')

加载数据集

import pandas as pd
df = pd.read_csv('train.csv')

数据集占内存大小,空值信息及数据类型

df.info()

特征基本统计量

df.describe()

数据维度和列名

print(df.shape)
print(df.columns)

收尾数据叠加显示

df.head(3).append(df.tail(3))

缺失值

print(f'There are {df.isnull().any().sum()} columns in train dataset with missing values.')

缺失特征中缺失率大于50%的特征

have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value

具体查看缺失特征及缺失率

missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

查看训练集测试集中特征属性只有一值的特征

one_value_fea = [col for col in data_train.columns if data_train[1 col].nunique() <= 1]
print(f'There are {len(one_value_fea)} columns in train dataset with one unique value.')

特征类型

  • 类别型特征
    •  非数值关系
    • 有数值关系
  • 数值型特征
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值