图解数据分析(12) | Pandas - 数据分析工具库介绍(数据科学家入门·完结)

Pandas是Python中用于数据分析的重要库,它提供了高效的数据结构如DataFrame和Series,支持缺失数据处理、数据对齐、分组操作等功能。通过pip或conda可以方便安装,安装后可导入并查看版本信息。Pandas广泛应用于数据清洗、预处理和分析,是数据科学和机器学习流程中的必备工具。
部署运行你感兴趣的模型镜像

ShowMeAI研究中心


一、Pandas介绍

Pandas最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。

Pandas是Python中最常用到的数据操作和分析工具包,它构建在Numpy之上,具备简洁的使用接口和高效的处理效率。数据科学、机器学习AI应用过程,涉及数据清洗和分析的操作也频繁使用到Pandas。

Pandas有着与Numpy类似的代码风格,但Pandas主要基于其Dataframe对象处理表格型或异质型数据,而之前介绍到的Numpy更适合处理同质的数值类型数据。

当我们提到python数据分析的时候,大部分情况下都会使用Pandas进行操作。本篇为pandas系列的导语,对pandas进行简单介绍,整个系列覆盖以下内容:

二、Pandas特点

  • 方便地处理浮点与非浮点数据里的缺失数据,表示为 NaN;
  • 大小可变:插入或删除 DataFrame 等多维对象的列;
  • 自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;
  • 强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;
  • 把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;
  • 基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;
  • 直观地合并(merge)、连接(join)数据集;
  • 灵活地重塑(reshape)、透视(pivot)数据集;
  • 轴支持结构化标签:一个刻度支持多个标签;
  • 成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;
  • 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

三、Pandas安装

可以在命令行基于以下命令安装pandas(如果使用anaconda集成环境,内置环境自带pandas,无需安装):

pip install pandas
conda install pandas
python3 -m pip install --upgrade pandas

对于Linux,比如Ubuntu,可以使用下面的方法安装,但可能出现各种依赖缺失或者安装错误:

sudo apt-get install python-numpy python-scipy python-matplotlib ipython python-pandas python-sympy python-nose

安装完Pandas后,我们就可以在python环境中导入它了:

import pandas as pd

有时候,我们会单独导入pandas包含的两个重要数据结构:

from pandas import Series, DataFrame

可以如下查看当前Pandas的版本信息:

pd.__version__

一键运行所有代码

图解数据分析系列 配套的所有代码,可前往ShowMeAI 官方 GitHub,下载后即可在本地 Python 环境中运行。能访问 Google 的宝宝也可以直接借助 Google Colab一键运行与交互学习!

下载数据分析速查表

Awesome cheatsheets | ShowMeAI速查表大全 系列包含『编程语言』『AI技能知识』『数据科学工具库』『AI垂直领域工具库』四个板块,追平到工具库当前最新版本,并跑通了所有代码。点击 官网GitHub 获取~

👇 数据分析相关速查表(部分)

内容速查表(部分)Github代码
Python 3速查表Python 3速查表一键运行速查表代码 - Python
Numpy 速查表Numpy 速查表一键运行速查表代码 - Numpy
Pandas 速查表Pandas 速查表一键运行速查表代码 - Pandas
Matplotlib 速查表Matplotlib 速查表一键运行速查表代码 - Matplotlib
Seaborn 速查表Seaborn 速查表一键运行速查表代码 - Seaborn

拓展参考资料

ShowMeAI图解数据分析系列推荐(数据科学家入门)

ShowMeAI系列教程精选推荐

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ShowMeAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值