导入库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
加载数据集
import pandas as pd
df = pd.read_csv('train.csv')
数据集占内存大小,空值信息及数据类型
df.info()
特征基本统计量
df.describe()
数据维度和列名
print(df.shape)
print(df.columns)
收尾数据叠加显示
df.head(3).append(df.tail(3))
缺失值
print(f'There are {df.isnull().any().sum()} columns in train dataset with missing values.')
缺失特征中缺失率大于50%的特征
have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
if value > 0.5:
fea_null_moreThanHalf[key] = value
具体查看缺失特征及缺失率
missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
查看训练集测试集中特征属性只有一值的特征
one_value_fea = [col for col in data_train.columns if data_train[1 col].nunique() <= 1]
print(f'There are {len(one_value_fea)} columns in train dataset with one unique value.')
特征类型
- 类别型特征
- 非数值关系
- 有数值关系
- 数值型特征
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
本文主要介绍了数据探索的过程,包括导入必要的库,加载数据集,分析数据集的内存占用、空值信息和数据类型。接着,对特征的统计量、数据维度、列名进行展示,并探讨了缺失值的情况,特别是那些缺失率超过50%的特征。同时,详细检查了只有一值的特征在训练集和测试集中的情况,区分了类别型和数值型特征,并分析了它们之间的关系。
694

被折叠的 条评论
为什么被折叠?



