Pandas是一个开源的第三方Python库,从Numpy和Matplotlib的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas已经成为Python数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
Pandas是什么
Pandas这个名字来源于面板数据(PanelData)与数据分析(dataanalysis)这两个名词的组合。在经济学中,PanelData是一个关于多维数据集的术语。Pandas最初被应用于金融量化交易领域,现在它的应用领域更加广泛,涵盖了农业、工业、交通等许多行业。
Pandas最初由WesMcKinney(韦斯·麦金尼)于2008年开发,并于2009年实现开源。目前,Pandas由PyData团队进行日常的开发和维护工作。在2020年12月,PyData团队公布了最新的Pandas1.20版本。
在Pandas没有出现之前,Python在数据分析任务中主要承担着数据采集和数据预处理的工作,但是这对数据分析的支持十分有限,并不能突出Python简单、易上手的特点。Pandas的出现使得Python做数据分析的能力得到了大幅度提升,它主要实现了数据分析的五个重要环节:
加载数据
整理数据
操作数据
构建数据模型
分析数据
Pandas主要特点
Pandas主要包括以下几个特点:
它提供了一个简单、高效、带有默认标签(也可以自定义标签)的DataFrame对象。
能够快速得从不同格式的文件中加载数据(比如Excel、CSV、SQL文件),然后将其转换为可处理