Pandas数据处理与分析实战:Pandas数据处理实战入门

原创已于 2025-08-19 14:52:13 修改 · 546 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #python #人工智能

于 2025-08-19 14:12:59 首次发布

Pandas数据处理实战：案例研究

学习目标

通过本课程的学习，学员将能够综合运用Pandas库中的各种功能，解决实际数据处理中的常见问题，包括数据清洗、数据转换和数据分析。本课程将通过一个具体的案例，帮助学员加深对Pandas的理解和应用能力。

学习内容

1 Pandas数据处理实战案例

1.1 数据清洗

数据清洗是数据处理的第一步，也是至关重要的一步。在现实世界中，数据往往存在缺失值、异常值、重复记录等问题，这些问题如果不解决，将严重影响后续的数据分析结果。Pandas提供了丰富的工具来帮助我们进行数据清洗。

1.1.1 处理缺失值

在数据集中，缺失值是非常常见的问题。Pandas提供了dropna()和fillna()两个方法来处理缺失值。dropna()方法可以删除包含缺失值的行或列，而fillna()方法则可以填充缺失值。

示例代码：

import pandas as pd

# 创建一个包含缺失值的数据框
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8],
        'C': [9, 10, 11, None]}
df = pd.DataFrame(data)

# 删除包含缺失值的行
df_cleaned = df.dropna()
print("Delete rows with missing values:")
print(df_cleaned)

# 填充缺失值
df_filled = df.fillna(0)
print("\nFill in missing values:")
print(df_filled)

输出（注意csdn的代码运行结果有问题，大家自行在本地环境运行查看结果！）：

Delete rows with missing values:
     A    B    C
0  1.0  5.0  9.0

Fill in missing values:
     A    B     C
0  1.0  5.0   9.0
1  2.0  0.0  10.0
2  0.0  7.0  11.0
3  4.0  8.0   0.0

1.1.2 处理异常值

异常值是指数据集中明显偏离其他值的数据点。处理异常值的方法包括删除、替换或修正。Pandas提供了quantile()方法来计算分位数，帮助识别异常值。

示例代码：

import pandas as pd
# 生成一个包含异常值的数据框
data = {'A': [1, 2, 3, 4, 5, 100],
        'B': [6, 7, 8, 9, 10, 1000]}
df = pd.DataFrame(data)

# 计算分位数
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

# 定义异常值的范围
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 删除异常值
df_cleaned = df[~((df < lower_bound) | (df > upper_bound)).any(axis=1)]
print("Data after deleting outliers:")
print(df_cleaned)

1.2 数据转换

数据转换是指将数据从一种形式转换为另一种形式，以便更好地进行分析。Pandas提供了多种方法来实现数据转换，包括数据重塑、数据聚合和数据分组。

1.2.1 数据重塑

数据重塑是指改变数据的结构，使其更适合分析。Pandas提供了melt()和pivot()方法来实现数据重塑。

示例代码：

import pandas as pd
# 创建一个数据框
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'Salary': [50000, 60000, 70000]}
df = pd.DataFrame(data)

# 使用melt()方法将数据框重塑为长格式
df_melted = df.melt(id_vars='Name', value_vars=['Age', 'Salary'])
print("Reshaped data:")
print(df_melted)

# 使用pivot()方法将数据框重塑为宽格式
df_pivoted = df_melted.pivot(index='Name', columns='variable', values='value')
print("\nReshape data back to wide format:")
print(df_pivoted)

1.2.2 数据聚合

数据聚合是指将数据集中的多个值合并为一个值。Pandas提供了groupby()方法来实现数据聚合。

示例代码：

import pandas as pd
# 创建一个数据框
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
        'Department': ['HR', 'HR', 'HR', 'IT', 'IT', 'IT'],
        'Salary': [50000, 60000, 70000, 55000, 65000, 75000]}
df = pd.DataFrame(data)

# 使用groupby()方法按部门分组并计算平均工资
df_grouped = df.groupby('Department')['Salary'].mean()
print("Average salary by department:")
print(df_grouped)

1.3 数据分析

数据分析是指通过统计和可视化方法来探索数据的特征和规律。Pandas提供了丰富的统计方法和可视化工具，帮助进行数据分析。

1.3.1 统计分析

Pandas提供了多种统计方法，如mean()、median()、std()等，帮助计算数据的统计特征。

示例代码：

import pandas as pd
# 创建一个数据框
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

# 计算平均值
mean_values = df.mean()
print("mean:")
print(mean_values)

# 计算中位数
median_values = df.median()
print("\nmedian:")
print(median_values)

# 计算标准差
std_values = df.std()
print("\nstd:")
print(std_values)

1.3.2 数据可视化

Pandas集成了Matplotlib库，可以方便地进行数据可视化。通过可视化，可以更直观地理解数据的特征和规律。

示例代码：

import pandas as pd
import matplotlib.pyplot as plt

# 创建一个数据框
data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

# 绘制柱状图
df.plot(kind='bar')
plt.title('Data visualization')
plt.xlabel('index')
plt.ylabel('value')
plt.show()