Series
pandas包提供了一种key-value型数据结构,其中key为用户定义的显示index。
如何创建一个series?
用pd.series()方法,第一个参数为data,第二个参数为显示index,二者需要一一对应。
如何使用series?
#查看“显示index”部分
mySeries.index
#查看value部分
mySeries.values
#通过“显示index”读取元素,支持切片
mySeries[["a","b","c"]]
#通过“隐示index”读取元素,支持切片
mySeries[1:4:2]
#更新“显示index”的值
reindex()方法
#支持“显示index”的in操作
“c” in mySeries
DataFrame
DataFrame代表的是一种类似关系表的数据结构。
如何创建一个DataFrame?
前提:导入pandas包,导入的方法为:import pandas as pd
- 直接定义方法:pd.DataFrame()
- 导入外部文件方法:用pandas包导入一个外部文件时,自动将其转换为DataFrame对象
如何访问DataFrame的元素?
(1)按列名:df.["id"][2]或df.id[2]
(2) 按显式index: df.loc[1,"id"]
(3) 按隐式index df.iloc[1,0]
如何删除DataFrame的行或者列
#删除行
df.drop([2])
df.drop([3,4],axis=0,inplace=True)
#按显式索引
df.drop(["id","diagnosis"],axis=1,inplace=True)
#inplace=True 的含义为“就地修改”,即修改数据框本身
如何对DataFrame进行条件过滤
(1)下标中直接写过滤条件 df[df.area_maen>1000]
如何对DataFrame的行进行算术运算?
算术运算并不是按下标的“隐式索引”进行计算,而是按照“显式索引”进行计算
如何对DataFrame的行进行统计分析?
- .describe()方法
如何对DataFrame进行排序?
- 查看排序后的值 .sort_values()
- 查看排序后的显示索引 .sort_index()
如何对DataFrame进行导入或导出?
- 将外部文件导入DataFrame 用Pandas的read_***类函数
- 将DataFrame导出到外部文件 用DataFrame的to_***类函数
如何对DataFrame进行分组统计?
#使用groupby
df.groupby("diagnosis")["area mean"].mean()
#圆括号为分组条件
#方括号为计算对象
#最后为分组统计函数
日期与时间
可视化
python中如何进行数据可视化
- Matplatlib
- Seaborn
- Pandas
- Bokeh
- Plotly
- Vispy
- Vega和gega-lite