什么是pandas
Pandas是一个开源的第三方Python库,它从Numpy和Matplotlib的基础上构建而来,享有数据分析“三剑客之一”的盛名。Pandas已经成为Python数据分析的必备高级工具,目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
数据结构
Pandas中除了Panel数据结构,还引入了两种新的数据结构——Series和DataFrame,这两种数据结构都建立在NumPy的基础之上。
(1)Series:一维数组系列,也称序列,与Numpy中的一维array类似。二者与Python基本的数据结构list也很相近。
(2)DataFrame:二维的表格型数据结构。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。、
(3)Panel:三维数组,可以理解为DataFrame的容器。
数据类型
Logical(逻辑型)
Logical又叫布尔型,只有两种取值:0和1,或者真和假(True和False)。逻辑运算符有:& (与,两个逻辑型数据中,有一个为假,则结果为假) , | (或,两个逻辑型数据中,有一个为真,则结果为真) ,not(非,取反)。
Numeric(数值型)
数值运算符有:+ -*和/。
Character(字符型)
字符型数据一般使用单引号(' ' )或者双引号(" ")包起来。
Python数据类型变量命名规则如下:
(1)变量名可以由a~z A~Z,数字,下划线组成,首字母不能是数字和下划线;
(2)大小写敏感,即区分大小写;
(3)变量名不能为Python中的保留字,如and continue lambda or等。
数据结构
数据结构是指相互之间存在的一种或多种特定关系的数据类型的集合。Pandas中主要有Series(系列)和Dataframe(数据框)两种数据结构。、
Series
Series(系列,也称序列)用于存储一行或一列的数据,以及与之相关的索引的集合。
from pandas import Series
x=Series(['a',2,'狗狗'],index=['a','b','c'])
print(x)
print(x['a'])
a a
b 2
c 狗狗
dtype: object
a
Series的index如果省略,索引号默认从0开始,也可以指定索引名。
为了方便后面的使用和说明,此处定义可以省略的index,也就是默认的索引号从0开始计数,赋值给定的index,我们称为索引名,有时也称为行标签。
补充:
dtype:object为列中的数据类型