一、Pandas 简介
在数据科学与数据分析领域,Pandas 无疑是最受欢迎的 Python 库之一。作为一个开源项目,Pandas 提供了高性能、易用的数据结构和数据分析工具,让数据处理变得高效而简单。
Pandas 的核心优势体现在三个方面:
高性能:基于 NumPy 构建,底层采用 C 语言实现,处理大规模数据时效率出众
灵活的数据结构:专为表格数据设计的 Series 和 DataFrame,完美适配各类结构化数据
丰富的分析工具:内置大量数据清洗、转换、聚合函数,满足日常分析需求
无论是数据清洗、转换、聚合还是简单的统计分析,Pandas 都能成为你得力的助手。
Series:一维数据容器
Series 是 Pandas 中最基础的数据结构,类似于表格中的一列,由索引(index)和值(values)两部分组成。其构造函数为:
| 参数 | 说明 |
|---|---|
| data | 一组数据(ndarray 类型) |
| index | 数据索引标签,默认从 0 开始 |
| dtype | 数据类型,默认自动判断 |
| name | 为 Series 设置名称 |
| copy | 是否拷贝数据,默认 False |
DataFrame:二维表格数据
DataFrame 是 Pandas 中最核心的数据结构,类似于 Excel 表格或数据库表,具有行索引和列索引,可以包含不同类型的列。其构造函数为:
| 参数 | 说明 |
|---|---|
| data | 输入数据(ndarray、series、字典等) |
| index | 行索引标签 |
| columns | 列索引标签,默认从 0 开始 |
| dtype | 数据类型 |
| copy | 是否拷贝数据,默认 False |
使用 loc 进行行查询
loc 是 DataFrame 中最常用的查询方法,用于通过行索引获取数据。
Pandas 数据读取
Pandas 支持多种数据格式的读取,最常用的包括 CSV、Excel 和数据库表。
| 数据类型 | 说明 | 读取方法 |
|---|---|---|
| csv, tsv, txt | 文本文件(逗号 / 制表符分隔) | pd.read_csv() |
| excel | Excel 文件(xls/xlsx) | pd.read_excel() |
| mysql | 关系型数据库表 | pd.read_sql() |
848

被折叠的 条评论
为什么被折叠?



