Pandas教程：近万字讲解在Pandas中如何操作Excel

旦莫

已于 2025-05-09 17:52:20 修改

阅读量1.1w

点赞数 59

分类专栏： Python Pandas 文章标签： pandas excel python 开发语言数据分析

于 2024-07-18 10:43:12 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_40025666/article/details/140515673

版权

在数据分析和处理领域，Excel文件是常见的数据存储格式之一。Pandas库提供了强大的功能来读取、处理和写入Excel文件。本文将详细介绍如何使用Pandas操作Excel文件，包括读取、数据清洗、数据操作和写入等步骤。

1. 安装与配置

首先，确保你已经安装了Pandas库以及用于读写Excel文件的库（如 openpyxl 或 xlrd）。你可以使用以下命令进行安装：

pip install pandas openpyxl xlrd

2. 读取Excel文件

2.1 基本用法

使用 pd.read_excel() 函数可以从Excel文件中读取数据到DataFrame。以下是一个基本示例：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')
print(df.head())

2.2 指定工作表

如果Excel文件包含多个工作表，可以使用 sheet_name 参数指定要读取的工作表：

# 读取名为 'Sheet1' 的工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(df.head())

2.3 指定单元格范围

可以使用 usecols 参数指定要读取的列范围，使用 skiprows 和 nrows 参数指定要跳过的行和读取的行数：

# 读取第1到第3列，跳过前2行，读取10行
df = pd.read_excel('data.xlsx', usecols="A:C", skiprows=2, nrows=10)
print(df.head())

3. 数据检查与预处理

3.1 查看数据的基本信息

使用 head()、tail()、info() 和 describe() 函数可以查看数据的基本信息：

print(df.head())  # 显示前5行
print(df.tail())  # 显示后5行
print(df.info())  # 显示数据类型和缺失值信息
print(df.describe())  # 显示统计信息

3.2 数据类型检查与转换

可以使用 dtypes 属性查看数据类型，并使用 astype() 函数进行类型转换：

print(df.dtypes)
df['Column1'] = df['Column1'].astype('int')

3.3 检查缺失值

使用 isnull() 和 sum() 函数检查缺失值：

print(df.isnull().sum())

3.4 处理缺失值

可以使用 fillna() 函数填充缺失值，或使用 dropna() 函数删除包含缺失值的行或列：

# 填充缺失值
df.fillna(0, inplace=True)

# 删除包含缺失值的行
df.dropna(inplace=True)

4. 数据清洗与转换

4.1 重命名列

使用 rename() 函数重命名列：

df.rename(columns={'OldName': 'NewName'}, inplace=True)

4.2 删除重复数据

使用 drop_duplicates() 函数删除重复数据：

df.drop_duplicates(inplace=True)

4.3 数据替换

使用 replace() 函数进行数据替换：

df['Column1'].replace(10, 20, inplace=True)

4.4 数据排序

使用 sort_values() 函数进行数据排序：

df.sort_values(by='Column1', ascending=False, inplace=True)

4.5 数据分组与聚合

使用 groupby() 和 agg() 函数进行数据分组与聚合：

grouped = df.groupby('Category')
result = grouped['Value'].agg(['mean', 'sum'])
print(result)

5. 数据选择与过滤

5.1 按标签选择

使用 loc 按标签选择数据：

subset = df.loc[df['Column1'] > 10]
print(subset)

5.2 按位置选择

使用 iloc 按位置选择数据：

subset = df.iloc[0:5, 1:3]
print(subset)

5.3 布尔索引

使用布尔索引进行数据过滤：

subset = df[df['Column1'] > 10]
print(subset)

最低0.47元/天解锁文章