Pandas 是 Python 生态系统中用于数据处理与分析的核心库之一。它提供了高效且便捷的数据结构,能够处理各类数据操作,如数据清洗、转换、分析等。本文将深入探讨 Pandas 的基本功能和高级特性,涵盖数据导入与导出、数据预处理、数据操作、数据分析和可视化等内容。
一、Pandas 数据结构
Pandas 主要提供两种数据结构:Series
和 DataFrame
。
1. Series
Series
是一种类似于一维数组的对象,它由一组数据(各种 NumPy 数据类型)以及一组与之相关的数据标签(即索引)组成。
import pandas as pd # 创建一个简单的 Series data = pd.Series([1, 2, 3, 4, 5]) print(data)
2. DataFrame
DataFrame
是一个表格型的数据结构,它包含有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
# 创建一个简单的 DataFrame data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'San Francisco', 'Los Angeles'] } df = pd.DataFrame(data) print(df)
二、数据导入与导出
Pandas 支持从多种文件格式导入和导出数据ÿ