pandas基础

最新推荐文章于 2020-11-18 09:40:40 发布

原创最新推荐文章于 2020-11-18 09:40:40 发布 · 460 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析

python学习专栏收录该内容

9 篇文章

订阅专栏

Pandas基础

一、文件读取与写入
二、基本数据结构
- Series
- DataFrame
三、常用基本函数
四、排序
- 索引排序
- 值排序
五、问题与练习
- 1. 问题
- 2. 练习

一、文件读取与写入

Pandas是基于Numpy的一种工具，纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

导入库

import pandas as pd
import numpy as np

读取数据

csv文件

df = pd.read_csv('data/table.csv')
df.head()

txt文件

df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt

xls或xlsx文件（需要先安装xlrd包）

df_excel = pd.read_excel('data/table.xlsx')
df_excel.head()

写入数据

csv格式

df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

xls或xlsx格式（需要安装openpyxl）

df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

二、基本数据结构

Pandas基于两种数据类型：series和dataframe。

Series

series是pandas中最基本的对象，类似一维数组。和numpy的数组不同，series能为数据自定义标签（即索引），并通过索引来访问数组中的数据。

对于一个Series，其中最常用的属性为值（values），索引（index），名字（name），类型（dtype）。

创建一个series

s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')

输出结果
访问series属性

属性方法	说明
s.values	访问s的内容
s.index	获取s的索引
s.iteritems()	获取索引和值对
s.dtype	获取s的数据类型
s[‘a’]	根据索引访问元素

调用方法

s.mean()

查看series可调用的方法

print([attr for attr in dir(s) if not attr.startswith('_')])

DataFrame

dataframe是一个二维的表结构，可以存储不同的数据类型，并且每一个坐标轴都有自己的标签。

创建一个dataframe

df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
                 index=list('一二三四五'))

输出结果
从dataframe取出一列为Series

df['col1']

修改行或列名

df.rename(index={'一':'one'},columns={'col1':'new_col1'})

修改结果
调用属性和方法

属性方法	说明
df.index	访问行索引
df.columns	访问列索引
df.values	访问数据
df.shape	获取df的数据形状

索引对齐特性

df1 = pd.DataFrame({'A':[1,2,3]},index=[1,2,3])
df2 = pd.DataFrame({'A':[1,2,3]},index=[3,1,2])
df1-df2 #由于索引对齐，因此结果不是0

输出结果
列的删除——drop、del、pop

drop

df.drop(index='五',columns='col1') #设置inplace=True后会直接在原DataFrame中改动

返回结果
2. del

df['col1']=[1,2,3,4,5]
del df['col1']
df

返回结果

pop
pop方法直接在原来的DataFrame上操作，且返回被删除的列

df['col1']=[1,2,3,4,5]
df.pop('col1')

输出结果

df

输出结果
列的增加

df1['B']=list('abc')
df1

输出结果

df1.assign(C=pd.Series(list('def')))#assign方法不会对原DataFrame做修改

输出结果
根据类型选择列

df.select_dtypes(include=['number']).head()

输出结果
将series转换为dataframe

s.to_frame()
s.to_frame().T #转置

三、常用基本函数

基本函数	说明
head(n)	默认返回前5行，可指定返回行数
tail()	返回后5行
nunique()	显示有多少个唯一值
unique()	显示所有的唯一值
count()	返回非缺失值元素个数
value_counts()	返回每个元素有多少个
info()	返回有哪些列、有多少非缺失值、每列的类型
describe()	统计数值型数据的各个统计量
idxmax ()	返回最大值
nlargest(n)	返回前n个大的元素值
clip(m,n)	对超过或者低于某些值的数进行截断
replace()	替换值

四、排序

索引排序

df.set_index('Math').sort_index().head() #可以设置ascending参数，默认为升序，True

输出结果

值排序

df.sort_values(by='Class').head()

输出结果
多个值排序，即先对第一层排，在第一层相同的情况下对第二层排序。

df.sort_values(by=['Address','Height']).head()

输出结果

五、问题与练习

1. 问题

【问题一】 Series和DataFrame有哪些常见属性和方法？
Series

属性方法	说明
s.values	访问s的内容
s.index	获取s的索引
s.iteritems()	获取索引和值对
s.dtype	获取s的数据类型
s[‘a’]	根据索引访问元素

DataFrame

属性方法	说明
df.index	访问行索引
df.columns	访问列索引
df.values	访问数据
df.shape	获取df的数据形状

【问题二】 value_counts会统计缺失值吗？
value_counts不会统计缺失值。
【问题三】与idxmax和nlargest功能相反的是哪两组函数？
idxmin和nsmallest
【问题四】在常用函数一节中，由于一些函数的功能比较简单，因此没有列入，现在将它们列在下面，请分别说明它们的用途并尝试使用。sum/mean/median/mad/min/max/abs/std/var/quantile/cummax/cumsum/cumprod

函数	说明
sum	求和
mean	求均值
median	求中位数
mad	求平均绝对偏差
max	求最大值
min	求最小值
abs	求绝对值
std	求标准差
var	求方差
quantile	求分位数
cummax	累积最大值
cumsum	累积求和
cumprod	累乘

【问题五】 df.mean(axis=1)是什么意思？它与df.mean()的结果一样吗？第一问提到的函数也有axis参数吗？怎么使用？
df.mean(axis=1)意思是对df按列求均值。
axis = 0表示保持列标签不变，对行进行操作；axis = 1表示保持行标签不变，对列进行操作。

2. 练习

【练习一】现有一份关于美剧《权力的游戏》剧本的数据集，请解决以下问题：
（a）在所有的数据中，一共出现了多少人物？
（b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？
（c）以单词计数，谁说了最多的单词？

import pandas as pd
df = pd.read_csv('data/Game_of_Thrones_Script.csv')
df.head()

在这里插入图片描述

df['Name'].nunique()

一共出现了564个人物。

df['Name'].value_counts()

在这里插入图片描述
以单元格计数，tyrion lannister说了最多的话。

【练习二】现有一份关于科比的投篮数据集，请解决如下问题：
（a）哪种action_type和combined_shot_type的组合是最多的？
（b）在所有被记录的game_id中，遭遇到最多的opponent是一个支？

import pandas as pd
df = pd.read_csv('data/Kobe_data.csv',index_col='shot_id')
df.head()

在这里插入图片描述

pd.Series(list(zip(df['action_type'],df['combined_shot_type']))).value_counts()

在这里插入图片描述
Jump Shot, Jump Shot的组合最多。

df.groupby('game_id')['opponent'].unique().astype('str').value_counts()

在这里插入图片描述