Pandas基础和应用
- 常用的数据对象
- Series对象-一维数组
pd.Series(data,index)
data可以是数组,列表,字典,index即为列名称
当data是字典时,列名称由key来充当
series有Index和value两个基本属性
- dataframe对象-二维数据
- 创建dataframe
pd.DataFrame(data,index,columns)
data可以是嵌套列表,二维数组,字典,或dataframe对象
index是索引对象,类数组对象
columns是列索引
- 数据转换
包括从csv,dict,items,records
- Panel对象-三维数据
pd.Panel(data,items,major_axis,minor_axis)
data可以是三维数组,嵌套列表,字典等。
items axis=0
major axis=1
minot axis=2
- 索引对象
- Index对象
创建索引pd.Index(["yuwen","shuxue"])
- Multiindex
- 数据索引和切片
Series.iloc[1]按位置读取
Series.loc[1:3]
- Dataframe转为numpy
Dataframe.vaues即可,切片方式基本与二维数组一致
- 文件读写操作
可以直接读csv,安装模块去读hdf5(大文件)
- 轴向链接
- 合并函数
- 按条件选择np.where.a.combine_first
- 分组运算(split apply combine)
df.groupby("cs").sum
聚合多种统计与运算
df.groupby("cs").aggregate(["mean","sum"])
filter过滤
transform 改变了原数据的值
- apply
apply 增加一列,参数是函数
- 矢量化字符串