Pandas是一个强大的分析结构化数据的工具集,该工具是为了解决数据分析任务而创建的。
1. Series介绍
Series是能够保存任何类型的数据的一维标记数组。
pandas.Series(data ,index ,dtype ,copy)
注:data数据采取各种形式,如ndarray,list,constants ,index索引值必须是唯一和散列的,默认为np.arange(n)
import pandas as pd
from pandas import Series,DataFrame
s = pd.Series([2,5,-9,13,-22,58])
print(s)
s.index
设置索引
2. 数据帧(DataFrame)
数据帧表示一个二维数据表,同时具有行索引和列索引。
pandas.DataFrame(data ,index ,columns ,dtype ,copy )
3.基本功能介绍
3.1 Series基本功能
axes:返回行轴标签列表
ndim:返回底层数据维数
size:返回基础数据中的元素数
values:将系列作为ndarray返回
head:返回前n行
tail:返回最后n行
3.2 DataFrame基本功能
T:转置行和列
其余和Series相同
3.2.1 读取和写入数据
读取数据 | 写入数据 |
---|---|
read_csv | to_csv |
read_excel | to_excel |
3.2.2 索引和选择数据
参数 | 说明 |
---|---|
.loc() | 基于标签 |
.iloc () | 基于整数 |
.ix() | 基于标签和整数(Python3.0以上版本已弃用) |
3.2.3 累计与分组
分组:groupby
聚合
grouped = classinfo.groupby('Age')
agg = grouped['Weight'].agg([np.sum, np.mean, np.std])
print (agg)
3.3 缺失数据处理
3.3.1 检查缺失数据
isnull和notnull
3.3.2 填充缺失数据
fillna函数填充缺失数据
可以调用均值或指定值来填充缺失数据。
3.3.3 丢失缺失数据
如果只是想排除缺少的值,则使用dropna函数和axis参数。默认情况下,axis=0,在行上应用。