在数据科学与计算领域,Pandas 是一款不可或缺的强大工具。它作为开源的 Python 类库,专为数据分析、数据处理和数据可视化而生,凭借高性能、易用的数据结构和分析工具,受到了广大开发者和数据分析师的青睐。本文将从 Pandas 的安装导入开始,逐步深入其核心数据结构、数据查询、读取、丢失数据处理等内容,并结合实例进行讲解,助你快速掌握 Pandas 的使用。
Pandas 核心数据结构
Pandas 主要有两种核心数据结构:Series 和 DataFrame。
1. Series
Series 类似表格中的一个列,是一种一维数组,可以保存任何数据类型,由索引和数据组成。其构造函数为:pandas.Series(data, index, dtype, name, copy)
| 参数 | 说明 |
|---|---|
| data | 一组数据(ndarray 类型) |
| index | 数据索引标签,不指定则默认从 0 开始 |
| dtype | 数据类型,默认自动判断 |
| name | 设置名称 |
| copy | 拷贝数据,默认为 False |
DataFrame
DataFrame 是一种表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型,同时具有行索引和列索引。其构造函数为:pandas.DataFrame(data, index, columns, dtype, copy)
| 参数 | 说明 |
|---|---|
| data | 一组数据(ndarray、series、map、lists、dict 等类型) |
| index | 索引值,也称行标签 |
| columns | 列标签,默认为 RangeIndex (0,1,2,…,n) |
| dtype | 数据类型 |
| copy | 拷贝数据,默认为 False |
Pandas 数据读取
Pandas 支持读取多种类型的数据,常见的有以下几种:
| 数据类型 | 说明 | Pandas 读取方法 |
|---|---|---|
| csv,tsv,txt | 用逗号分隔或者 tab 分割的纯文本文件 | pd.read_csv() |
| excel | xls 或者 xlsx 文件 | pd.read_excel() |
| mysql | 关系型数据库表 | pd.read_sql() |
dropna () 函数
删除包含空字段的行,其语法格式为:DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
| 参数 | 说明 |
|---|---|
| axis | 默认为 0,表示逢空值剔除整行 |
| how | 'any':有一个数据为空就去掉整行;'all':所有数据都为空才去掉整行 |
| thresh | 设置需要多少非空值的数据才可以保留下来 |
| subset | 设置想要检查的列,多个列用列名的 list 作为参数 |
| inplace | 如果为 True,直接修改源数据并返回 None |
6121

被折叠的 条评论
为什么被折叠?



