使用 Python 读取 Excel 数据——Pandas

原创于 2024-09-07 15:18:08 发布 · 1.6k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#excel

使用 Python 读取 Excel 数据：详细教程与实际应用

引言

在数据分析和处理领域，Excel 文件广泛用于存储和交换数据。Python 提供了强大的库来读取和处理 Excel 文件，其中 pandas 库是最受欢迎的工具之一。通过本教程，你将学习如何使用 Python 读取 Excel 数据，并通过实际应用示例展示如何处理这些数据。

准备工作

在开始之前，请确保你已经安装了以下 Python 库：

pandas：用于数据处理和分析。
openpyxl：用于读取和写入 Excel 文件（特别是 .xlsx 格式）。

你可以使用 pip 安装这些库：

bash

pip install pandas openpyxl

1. 读取 Excel 数据

在这个部分，我们将学习如何读取 Excel 文件中的数据，并将其加载到 pandas 的 DataFrame 中。

1.1 示例 Excel 文件

假设我们有一个名为 data.xlsx 的 Excel 文件，内容如下：

Name	Age	Department
Alice	30	HR
Bob	24	IT
Carol	29	Marketing

1.2 读取 Excel 文件

以下是读取 Excel 文件并将数据加载到 DataFrame 中的代码：

python

import pandas as pd

# 读取 Excel 文件
file_path = 'data.xlsx'
df = pd.read_excel(file_path)

# 显示数据
print(df)

代码解析：

import pandas as pd：导入 pandas 库。
pd.read_excel(file_path)：读取 Excel 文件，file_path 是 Excel 文件的路径。
print(df)：打印 DataFrame 中的数据。

2. 数据处理

在数据加载到 DataFrame 中后，你可以执行各种数据处理操作，例如筛选、排序、分组等。

2.1 数据筛选

以下是筛选出年龄大于 25 岁的员工的代码：

python

# 筛选出年龄大于 25 岁的员工
filtered_df = df[df['Age'] > 25]

# 显示筛选后的数据
print(filtered_df)

2.2 数据排序

以下是根据年龄对员工进行排序的代码：

python

# 根据年龄进行升序排序
sorted_df = df.sort_values(by='Age')

# 显示排序后的数据
print(sorted_df)

2.3 数据分组

以下是按照部门分组并计算每个部门的员工平均年龄的代码：

python

# 按照部门分组并计算每个部门的员工平均年龄
grouped_df = df.groupby('Department')['Age'].mean()

# 显示分组后的数据
print(grouped_df)

3. 实际应用示例

在实际应用中，我们可能需要读取 Excel 文件，进行数据处理，然后将结果保存到新的 Excel 文件中。以下是一个完整的示例，展示了如何读取、处理和保存数据。

3.1 实际应用示例

假设我们有一个名为 sales_data.xlsx 的 Excel 文件，包含以下数据：

Salesperson	Region	Sales
Alice	East	1000
Bob	West	1500
Carol	East	2000
Dave	West	1200

我们的目标是计算每个区域的总销售额，并将结果保存到新的 Excel 文件中。

python

import pandas as pd

# 读取 Excel 文件
file_path = 'sales_data.xlsx'
df = pd.read_excel(file_path)

# 按照区域分组并计算总销售额
grouped_df = df.groupby('Region')['Sales'].sum().reset_index()

# 保存结果到新的 Excel 文件
output_file_path = 'region_sales_summary.xlsx'
grouped_df.to_excel(output_file_path, index=False)

print('数据处理完成，结果已保存到', output_file_path)

python

代码解析：

df.groupby('Region')['Sales'].sum().reset_index()：按照区域分组，并计算每个区域的总销售额。reset_index() 用于将分组结果恢复为 DataFrame。
grouped_df.to_excel(output_file_path, index=False)：将处理后的数据保存到新的 Excel 文件中，index=False 参数表示不保存行索引。