Datawhale组队学习——数据分析Task01 数据加载及探索性数据分析

最新推荐文章于 2025-11-14 16:23:39 发布

原创最新推荐文章于 2025-11-14 16:23:39 发布 · 435 阅读

CC 4.0 BY-SA版权

文章标签：

以下学习笔记来自Datawhale组队学习的数据分析课程第一章，此次数据分析课程主要是完成kaggle上泰坦尼克的任务，实战数据分析全流程。
链接：https://github.com/datawhalechina/hands-on-data-analysis

数据加载及初步观察

载入数据

数据集下载 https://www.kaggle.com/c/titanic/overview

导入numpy和pandas

import numpy as np
import pandas as pd

载入数据

使用相对路径载入数据（根据个人数据集存放位置载入）：

import os
path=os.path.join(os.path.dirname(os.getcwd()),'titanic/train.csv')
print(path)
data=pd.read_csv(path)

使用绝对路径载入数据：

data=pd.read_csv('D:/jupyter_note/Datawhale_data_analysis/titanic/train.csv')

‘.tsv’和’.csv’的不同: TSV 是Tab-separated values的缩写，即制表符分隔值。相对来说CSV，Comma-separated values（逗号分隔值）更常见一些。

每1000行为一个数据模块，逐块读取

chunker=pd.read_csv(path,chunksize=1000)
for i in chunker:
    print(i)

请添加图片描述

将表头改成中文，索引改为乘客ID

对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据:

chinese_col_list=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄',
                  '堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
data.columns=chinese_col_list

初步观察

查看数据的基本信息

data.info()

请添加图片描述

观察表格前10行的数据和后15行的数据

data.head(10)

请添加图片描述

data.tail(15)

请添加图片描述

保存数据

将加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

data.to_csv('train_chinese.csv',index=False)

pandas基础

导入numpy和pandas

根据上节课的方法载入"train.csv"文件

train_data=pd.read_csv('D:/jupyter_note/Datawhale_data_analysis/titanic/train.csv')

查看DataFrame数据的每列的名称

train_data.columns

请添加图片描述

查看"Cabin"这列的所有值

train_data['Cabin'].head(10)

请添加图片描述

加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除

test_data=pd.read_csv('D:/jupyter_note/Datawhale_data_analysis/titanic/test.csv')
del_col_list=[]
for col in test_data.columns:
    if col not in train_data.columns:
        del_col_list.append(col)
for col in del_col_list:
    del test_data[col]
print('删除多余的列: ',del_col_list)

将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

train_data.drop(['PassengerId','Name','Age','Ticket'],axis=1,inplace=False)#inplace是否真的删除

请添加图片描述

筛选的逻辑

以"Age"为筛选条件，显示年龄在10岁以下的乘客信息

train_data[train_data['Age']<10]

请添加图片描述

以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage=train_data[(train_data['Age']>10) & (train_data['Age']<50)]
midage

请添加图片描述

#当指定drop=False时，则索引列会被还原为普通列；否则，经设置后的新索引值被会丢弃。默认为False。
midage=midage.reset_index(drop=True)
midage

请添加图片描述

将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage.loc[[100],['Pclass','Sex']]

请添加图片描述

使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

#loc：根据DataFrame的具体标签选取行列，先行标签，后列标签
midage.loc[[100,105,108],['Pclass','Name','Sex']]

请添加图片描述

使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

#iloc：根据标签的所在位置，从0开始计数，同样先选取行再选取列
midage.iloc[[100,105,108],[2,3,4]]

请添加图片描述

探索性数据分析

首先先读取上面保存的索引为中文的csv文件

data=pd.read_csv('train_chinese.csv')
data.head()

请添加图片描述

利用Pandas对示例数据进行排序

#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
                     index=['2', '1'], 
                     columns=['d', 'a', 'b', 'c'])
frame

请添加图片描述
让行索引升序排序：

frame.sort_index(axis=0,ascending=True)

请添加图片描述
让列索引升序排序：

frame.sort_index(axis=1,ascending=False)

请添加图片描述
让任选两列数据同时降序排序:

frame.sort_values(by=['b','c'],ascending=False)

请添加图片描述

对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列）

data.sort_values(by=['票价','年龄'],ascending=False).head(10)

请添加图片描述

利用Pandas进行算术计算，计算两个DataFrame数据相加结果

示例：

frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                        columns=['a', 'b', 'c'],
                        index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                        columns=['a', 'e', 'c'],
                        index=['first', 'one', 'two', 'second'])

请添加图片描述
相加（两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。）：

通过泰坦尼克号数据如何计算出在船上最大的家族有多少人

请添加图片描述

学会使用Pandas describe()函数查看数据基本统计信息

示例：

frame2 = pd.DataFrame([[1.4, np.nan], 
                       [7.1, -4.5],
                       [np.nan, np.nan], 
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2