数据探索

最新推荐文章于 2025-01-02 21:20:06 发布

原创最新推荐文章于 2025-01-02 21:20:06 发布 · 291 阅读

CC 4.0 BY-SA版权

本文主要介绍了数据探索的过程，包括导入必要的库，加载数据集，分析数据集的内存占用、空值信息和数据类型。接着，对特征的统计量、数据维度、列名进行展示，并探讨了缺失值的情况，特别是那些缺失率超过50%的特征。同时，详细检查了只有一值的特征在训练集和测试集中的情况，区分了类别型和数值型特征，并分析了它们之间的关系。

导入库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')

加载数据集

import pandas as pd
df = pd.read_csv('train.csv')

数据集占内存大小，空值信息及数据类型

df.info()

特征基本统计量

df.describe()

数据维度和列名

print(df.shape)
print(df.columns)

收尾数据叠加显示

df.head(3).append(df.tail(3))

缺失值

print(f'There are {df.isnull().any().sum()} columns in train dataset with missing values.')

缺失特征中缺失率大于50%的特征

have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value

具体查看缺失特征及缺失率

missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

查看训练集测试集中特征属性只有一值的特征

one_value_fea = [col for col in data_train.columns if data_train[1 col].nunique() <= 1]
print(f'There are {len(one_value_fea)} columns in train dataset with one unique value.')

特征类型

类别型特征
- 非数值关系
- 有数值关系
数值型特征

numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))