以下学习笔记来自Datawhale组队学习的数据分析课程第一章,此次数据分析课程主要是完成kaggle上泰坦尼克的任务,实战数据分析全流程。
链接:https://github.com/datawhalechina/hands-on-data-analysis
数据加载及初步观察
载入数据
数据集下载 https://www.kaggle.com/c/titanic/overview
导入numpy和pandas
import numpy as np
import pandas as pd
载入数据
使用相对路径载入数据(根据个人数据集存放位置载入):
import os
path=os.path.join(os.path.dirname(os.getcwd()),'titanic/train.csv')
print(path)
data=pd.read_csv(path)
使用绝对路径载入数据:
data=pd.read_csv('D:/jupyter_note/Datawhale_data_analysis/titanic/train.csv')
‘.tsv’和’.csv’的不同: TSV 是Tab-separated values的缩写,即制表符分隔值。 相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。
每1000行为一个数据模块,逐块读取
chunker=pd.read_csv(path,chunksize=1000)
for i in chunker:
print(i)
将表头改成中文,索引改为乘客ID
对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据:
chinese_col_list=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄',
'堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
data.columns=chinese_col_list
初步观察
查看数据的基本信息
data.info()
观察表格前10行的数据和后15行的数据
data.head(10)
data.tail(15)
保存数据
将加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
data.to_csv('train_chinese.csv',index=False)
pandas基础
导入numpy和pandas
根据上节课的方法载入"train.csv"文件
train_data=pd.read_csv('D:/jupyter_note/Datawhale_data_analysis/titanic/train.csv')
查看DataFrame数据的每列的名称
train_data.columns
查看"Cabin"这列的所有值
train_data['Cabin'].head(10)
加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
test_data=pd.read_csv('D:/jupyter_note/Datawhale_data_analysis/titanic/test.csv')
del_col_list=[]
for col in test_data.columns:
if col not in train_data.columns:
del_col_list.append(col)
for col in del_col_list:
del test_data[col]
print('删除多余的列: ',del_col_list)
将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏,只观察其他几个列元素
train_data.drop(['PassengerId','Name','Age','Ticket'],axis=1,inplace=False)#inplace是否真的删除
筛选的逻辑
以"Age"为筛选条件,显示年龄在10岁以下的乘客信息
train_data[train_data['Age']<10]
以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage=train_data[(train_data['Age']>10) & (train_data['Age']<50)]
midage
#当指定drop=False时,则索引列会被还原为普通列;否则,经设置后的新索引值被会丢弃。默认为False。
midage=midage.reset_index(drop=True)
midage
将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
midage.loc[[100],['Pclass','Sex']]
使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
#loc:根据DataFrame的具体标签选取行列,先行标签,后列标签
midage.loc[[100,105,108],['Pclass','Name','Sex']]
使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
#iloc:根据标签的所在位置,从0开始计数,同样先选取行再选取列
midage.iloc[[100,105,108],[2,3,4]]
探索性数据分析
首先先读取上面保存的索引为中文的csv文件
data=pd.read_csv('train_chinese.csv')
data.head()
利用Pandas对示例数据进行排序
#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])
frame
让行索引升序排序:
frame.sort_index(axis=0,ascending=True)
让列索引升序排序:
frame.sort_index(axis=1,ascending=False)
让任选两列数据同时降序排序:
frame.sort_values(by=['b','c'],ascending=False)
对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列)
data.sort_values(by=['票价','年龄'],ascending=False).head(10)
利用Pandas进行算术计算,计算两个DataFrame数据相加结果
示例:
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
columns=['a', 'b', 'c'],
index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
columns=['a', 'e', 'c'],
index=['first', 'one', 'two', 'second'])
相加(两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。):
通过泰坦尼克号数据如何计算出在船上最大的家族有多少人
学会使用Pandas describe()函数查看数据基本统计信息
示例:
frame2 = pd.DataFrame([[1.4, np.nan],
[7.1, -4.5],
[np.nan, np.nan],
[0.75, -1.3]
], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2