Python 实战总结1

原创于 2022-11-14 13:42:56 发布 · 299 阅读

CC 4.0 BY-SA版权

文章标签：

这篇博客介绍了如何使用Python的Pandas库读取CSV文件，包括查看数据信息、数据描述、空值检查以及如何挑选特定属性。首先，通过`pd.read_csv()`函数读取名为`train.csv`的数据集。接着，通过`head()`和`describe()`方法查看数据的前五个记录及统计描述。进一步，利用`isnull().any()`和`isnull().sum().reset_index()`来检查和统计空值。最后，展示了两种方式挑选特定属性，如'Survived'、'Pclass'等，并将数据切片。此外，还提到了如何从数据集中提取特定字段如'AnnualIncome(k$)'，为后续分析做准备。

使用pandas读入csv文件

import pandas as pd

读取csv文件数据

读取train.csv数据：

train_df = pd.read_csv(r'C:\Users\86177\Desktop\大二资料\大数据导\experiment\train.csv')

查看数据信息

print(train_df)

查看前五个数据

print(train_df.head())

数据描述信息

train_df.describe( )

查看是否有空值

train_df.isnull( ).any( )

统计空值数目重置索引

将空值的数目进行统计，并且重置索引，使得missing_value数据有两列：column_name和null_count：

missing_values = train_df.isnull( ).sum( )

missing_values = missing_values.reset_index( )

missing_values.columns = ['column_name','missing_count']

missing_value

挑选属性

第一种：

挑选这些属性Survived,Pclass,Sex,SibSp,Parch,Embarked,Age,Fare，组成datalist：

datalist = train_df.names = ["Survived“,”Pclass“,”Sex“,”SibSp“,“Parch”,”Embarked“,”Age“,"Fare"]

train_df2 = train_df[datalist]

train_df2.head( )

将数据年收入(Annual Income (k$))和消费习惯(Spending Score (1-100))字段提出，赋给X（dataset为接收数据的）

b=dataset.names = ['Annual Income (k$)‘,'Annual Income (k$)']

X=dataset[b]

print(X.head())

第二种：

将数据年收入(Annual Income (k$))和消费习惯(Spending Score (1-100))字段提出，赋给X（dataset为接收数据的）

X=dataset.loc[:,['Annual Income (k$)‘,'Annual Income (k$)']]

print(X.head())