Pandas 是python的一个标准库,在数据预处理方面具有卓越的效果,因而被广泛使用。 Pandas 主要有三种数据结构 Series, DataFrame and Panel,前面两种使用非常广泛,后面一种使用比较少,因而没有关注。本文是对前两种数据类型的学习心得的分享, 有不足之处还希望大牛多多指导。
笔记内容
数据结构创建
数据基本操作
数据清洗和转换
数据结构创建
创建Series 和DataFrame, 可以采用列表,数组,字典等多种方式,以下分别使用数组和字典创建Series,DataFrame .
对于创建好的数据结构,通过操作其属性我们可以获得各种数据. 主要有四个属性 分别为 index, column, value, name, name 主要用在层次索引和数据聚合分组中
创建Series 和DataFrame
数据基本操作
获取df的列标签
也可以通过df.index 获取行索引标签
df.columns![]()
给行或列修改标签 直接给所有列该标签 df.columns = ('a','b','c','d'),修改单列或单行使用 df.rename(columns={ 'a':'aa'}) 修改df列为keyd的标签名为testdf.rename(columns={ 'keyd':'test'})对df进行取值操作
基本格式为 df[row, col], 具体对数据进行定位获取数据格式 有三种方式 df.loc[row, col] row&col是行列值的标签, df.iloc[row,col] row&col是行列值为数值, df.ix[row,col] row&col行列值可以是标签也可以是数值,该格式广泛被使用,可以取代前面两种 比如获取一行数据df.iloc[row2], 获取一列数据df[