Pandas库的引用
Pandas是Python第三方库,提供高性能易用数据类型和分析工具。pandas基于Numpy实现,常与Numpy和Matplotlib一同使用。
Numpy VS Pandas:
| Numpy | Pandas |
|---|---|
| 提供基础数据类型 ndarray,可表达N维数组 | 基于ndarray的扩展数据类型Series,DataFrame |
| 关注数据的结构表达(注重维度) | 关注数据的应用表达(怎么更有效的提取这些数据以及运算) |
| 维度:数据间关系 | 数据与索引间关系 |
序列Series
Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。
- 类似Array,List的一维物件
- 每个Series都可以透过其索引(index)进行存取
- 预设Series会以0到Series长度作为索引编号
创建方法
(1)从标量值创建:s=pd.Series([21000,18900,18000])

pd.Series([21000,18900,18000], index=[‘Iphone’,‘Edge S7’,‘HTC M1’])

(2)从字典类型创建:s=pd.Series({‘Iphone’:21000,‘Edge S7’:18900,‘HTC M1’:18000})

(3)从ndarray类型创建:n=pd.Series(np.arange(5))

n=pd.Series(np.arange(5), index=np.arange(9,4,-1))

基本操作
1、Series类型操作类似ndarray类型。
- 索引方法相同,采用[ ]。
- Numpy中运算和操作可用于Series类型。
- 可以通过自定义索引的列表进行切片。
- 可以通过自动索引进行切片,如果存在自定义索引,则一同被切片。
Series类型是索引+值的一种类型,进行切片等运算得到的还是Series类型。但是选择一个值得到的就不是Series类型,而是一个值。


2、Series类型操作类似Python字典类型。
- 通过自定义索引访问
- 保留字in操作
- 使用.get()方法

3、Series类型对齐操作
Series类型在运算中会自动对齐不同索引的数据。

4、Series类型的name属性
Series对象和索引都可以有一个名字,存储在属性.name中。

5、Series类型的修改
Series对象可以随时修改并即刻生效。

Series是一维带“标签”数组。基本操作类似ndarray和字典,根据索引对齐。
DataFrame
DataFrame是一个表格型的数据类型,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。DataFrame常用于表达二维数据,但可以表达多维数据。可以理解为二维带“标签”数组。
DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。
为不存在的列赋值会创建新列。</

本文介绍了Pandas库的Series和DataFrame数据结构,包括创建、基本操作、缺失值处理、数据类型操作、排序及统计分析。Series可视为带标签的一维数组,而DataFrame是表格型数据结构,允许不同类型的列。文章详细讲解了如何创建、修改、索引这些数据结构,并展示了如何进行算术运算、比较运算和缺失值处理。
最低0.47元/天 解锁文章
1万+





