Pandas 提供了方便的类表格的统计操作和类 SQL 操作,使之可以方便地做一些数据预处理工作。Pandas 可以完成以下工作:
(1)索引对象:包括简单的索引和多层次的索引
(2)引擎集成组合:用于汇总和转换数据集合
(3)日期范围生成器以及自定义日期偏移
(4)输入工具和输出工具:从各种格式的文件中加载表格数据,以及从 PyTables/HDF5格式中保存和加载 Pandas 对象。
(5)标准数据结构的“稀疏”形式:可以用于存储大量缺失或者大量一致的数据。
(6)移动窗口统计:如滚动平均值、滚动标准偏差等。
Pandas 提供了两种主要的数据结构: Series 与 DataFrame。两者分别适用于一维和多维数据。
Series
Series 类似于一维数组与字典的结合,是一个有标签的一维数组,标签在 Pandas 中有对应的数据类型 index。
Series 的创建
Series 创建时可以接收多种输入,包括list、ndarray、dict甚至标量。index 参数可以选择性地传入。Series 对象输出时,每一行为 Series 中的一个元素,左侧为索引,右侧为值。
import pandas as pd
from pandas import DataFrame, Series
obj_a = Series([1,2,3,4]