思维导读

Pandas是专门为处理表格和混杂数据设计的。区别numpy,numpy是为了处理统一的数组数据的。
同样是分为两大部分来讲pandas,数据结构+操作,这边是入门基础,以后大量的数据分析都是使用pandas去完成的。
数据结构
两个基本的数据结构,Series,一维数组对象,DataFrame,二维数组对象
Series
创建

索引+值的配置是不是有点熟悉,你不设置索引,它也会自动生成索引

当然你也可以自己设定索引

没错,它的索引就是和你想象的是一样的

这边还有一个列表索引
##索引列表['a','d','c']
obj2[['a','d','c']]
它简直和numpy一维数组是一样的

其实到这里,你可以看出来,series其实就是一个定长的有序字典,许多字典函数也是可以使用的

也可以传入index的顺序,它会按照你传入的顺序进行排序

没有找到的话,会自动填入缺失符号
判断缺失值

自动对齐数据

name属性,很像表名

DataFrame
表格型的数据结构,一组有序的列组成;如何创建DataFrame

看代码就知道这是一列一列的数据组成的,他们可以是不同类型的
设定index,columns

属性访问,就是索引,类似字典+自带的方法

访问行就需要函数啦

关于赋值的问题


创建和删除新列

注意索引返回的都是视图,修改会改变源数据的
嵌套词典创建dataframe


dataframe能够接受的数据

如果设置了DataFrame的index和columns的name属性,则这些信息也会被显示出来

跟Series⼀样, values属性也会以⼆维ndarray的形式返回DataFrame中的数据

到这里两种基本的数据结构就讲完了
本文是Pandas的入门基础,介绍其两大核心数据结构——Series和DataFrame。Series是一维数组对象,类似定长有序字典,可自定义索引;DataFrame是表格型数据结构,由多列不同类型的數據组成,支持属性访问和函数操作。内容涵盖数据结构创建、索引、缺失值处理、数据对齐及 DataFrame 的操作。
312

被折叠的 条评论
为什么被折叠?



