使用pandas读入csv文件
import pandas as pd
读取csv文件数据
读取train.csv数据:
train_df = pd.read_csv(r'C:\Users\86177\Desktop\大二资料\大数据导\experiment\train.csv')
查看数据信息
print(train_df)
查看前五个数据
print(train_df.head())
数据描述信息
train_df.describe( )
查看是否有空值
train_df.isnull( ).any( )
统计空值数目 重置索引
将空值的数目进行统计,并且重置索引,使得missing_value数据有两列:column_name和null_count:
missing_values = train_df.isnull( ).sum( )
missing_values = missing_values.reset_index( )
missing_values.columns = ['column_name','missing_count']
missing_value
挑选属性
第一种:
挑选这些属性Survived,Pclass,Sex,SibSp,Parch,Embarked,Age,Fare,组成datalist:
datalist = train_df.names = ["Survived“,”Pclass“,”Sex“,”SibSp“,“Parch”,”Embarked“,”Age“,"Fare"]
train_df2 = train_df[datalist]
train_df2.head( )
将数据年收入(Annual Income (k$))和消费习惯(Spending Score (1-100))字段提出,赋给X(dataset为接收数据的)
b=dataset.names = ['Annual Income (k$)‘,'Annual Income (k$)']
X=dataset[b]
print(X.head())
第二种:
将数据年收入(Annual Income (k$))和消费习惯(Spending Score (1-100))字段提出,赋给X(dataset为接收数据的)
X=dataset.loc[:,['Annual Income (k$)‘,'Annual Income (k$)']]
print(X.head())
这篇博客介绍了如何使用Python的Pandas库读取CSV文件,包括查看数据信息、数据描述、空值检查以及如何挑选特定属性。首先,通过`pd.read_csv()`函数读取名为`train.csv`的数据集。接着,通过`head()`和`describe()`方法查看数据的前五个记录及统计描述。进一步,利用`isnull().any()`和`isnull().sum().reset_index()`来检查和统计空值。最后,展示了两种方式挑选特定属性,如'Survived'、'Pclass'等,并将数据切片。此外,还提到了如何从数据集中提取特定字段如'AnnualIncome(k$)',为后续分析做准备。






27万+

被折叠的 条评论
为什么被折叠?



