思维导读
Pandas是专门为处理表格和混杂数据设计的。区别numpy,numpy是为了处理统一的数组数据的。
同样是分为两大部分来讲pandas,数据结构+操作,这边是入门基础,以后大量的数据分析都是使用pandas去完成的。
数据结构
两个基本的数据结构,Series,一维数组对象,DataFrame,二维数组对象
Series
创建
索引+值的配置是不是有点熟悉,你不设置索引,它也会自动生成索引
当然你也可以自己设定索引
没错,它的索引就是和你想象的是一样的
这边还有一个列表索引
##索引列表['a','d','c']
obj2[['a','d','c']]
它简直和numpy一维数组是一样的
其实到这里,你可以看出来,series其实就是一个定长的有序字典,许多字典函数也是可以使用的
也可以传入index的顺序,它会按照你传入的顺序进行排序
没有找到的话,会自动填入缺失符号
判断缺失值
自动对齐数据
name属性,很像表名
DataFrame
表格型的数据结构,一组有序的列组成;如何创建DataFrame
看代码就知道这是一列一列的数据组成的,他们可以是不同类型的
设定index,columns
属性访问,就是索引,类似字典+自带的方法
访问行就需要函数啦
关于赋值的问题
创建和删除新列
注意索引返回的都是视图,修改会改变源数据的
嵌套词典创建dataframe
dataframe能够接受的数据
如果设置了DataFrame的index和columns的name属性,则这些信息也会被显示出来
跟Series⼀样, values属性也会以⼆维ndarray的形式返回DataFrame中的数据
到这里两种基本的数据结构就讲完了