Python数据分析：pandas入门指南

最新推荐文章于 2025-11-25 11:44:22 发布

原创最新推荐文章于 2025-11-25 11:44:22 发布 · 351 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python

开始学习pandas：Python数据分析核心库

pandas是Python数据分析的核心库之一，专注于数据处理和分析。它提供了高效的数据结构（如DataFrame和Series），支持数据清洗、转换、聚合等操作。下面我将逐步引导你入门，确保结构清晰，内容真实可靠。学习pandas前，建议先安装它（如使用pip install pandas），并导入到Python环境中。

1. 什么是pandas？

pandas是一个开源库，用于处理结构化数据（如表格数据）。
核心优势：高效处理大型数据集，支持缺失值处理、时间序列分析等。
常用场景：数据清洗、探索性数据分析（EDA）、数据可视化（结合Matplotlib）。

2. 核心概念介绍

pandas的核心数据结构是DataFrame和Series：

Series：一维数组，类似于列表或列向量。例如，表示一组数值：$[1, 2, 3]$。
DataFrame：二维表格，类似于Excel表，由行和列组成。每列是一个Series，行表示数据条目。
- 在数学上，DataFrame可以看作一个矩阵，其中元素$a_{ij}$表示第$i$行第$j$列的值。

3. 基本操作入门

以下是一个简单示例，展示如何创建DataFrame、访问数据并进行基本计算。我们将创建一个包含姓名和年龄的表格。

import pandas as pd  # 导入pandas库

# 创建一个DataFrame
data = {'姓名': ['张三', '李四', '王五'], '年龄': [25, 30, 35]}
df = pd.DataFrame(data)

# 显示DataFrame
print("原始数据：")
print(df)

# 添加新列：计算年龄的平方（使用向量化操作）
df['年龄平方'] = df['年龄'] ** 2
print("\n添加新列后：")
print(df)

# 基本统计：计算平均年龄
average_age = df['年龄'].mean()
print(f"\n平均年龄：{average_age}")

代码解释：

import pandas as pd：导入库，pd是常用别名。
pd.DataFrame(data)：从字典创建DataFrame，键是列名，值是数据列表。
df['年龄平方'] = df['年龄'] ** 2：添加新列，使用向量化操作（高效避免循环）。
df['年龄'].mean()：计算平均值，pandas内置函数简化统计。

输出示例：

原始数据：
   姓名  年龄
0  张三  25
1  李四  30
2  王五  35

添加新列后：
   姓名  年龄  年龄平方
0  张三  25    625
1  李四  30    900
2  王五  35   1225

平均年龄：30.0

4. 下一步学习建议

数据读取：尝试读取CSV文件，如df = pd.read_csv('data.csv')。
数据筛选：使用条件过滤，例如df[df['年龄'] > 30]选择年龄大于30的行。
聚合操作：分组计算，如df.groupby('姓名')['年龄'].mean()。
结合其他库：pandas常与NumPy（数值计算）和Matplotlib（绘图）配合使用。

通过这个入门，你可以快速上手pandas的基础操作。如果有具体问题（如数据清洗或分析任务），请随时提出，我会提供更详细的指导！继续学习，数据分析会变得更有趣！ 😊