Pandas教程：详解Pandas数据清洗

最新推荐文章于 2025-05-12 14:10:45 发布

旦莫

最新推荐文章于 2025-05-12 14:10:45 发布

阅读量2.4k

点赞数 23

分类专栏： Python Pandas 文章标签： python pandas 数据分析

本文链接：https://blog.youkuaiyun.com/weixin_40025666/article/details/141958383

版权

1. 引言

数据清洗是数据科学和数据分析中的一个重要步骤，旨在提升数据的质量和可用性。它的主要目标是识别和纠正数据集中的错误、缺失、不一致和冗余，从而使数据更加准确、完整和一致。数据清洗通常包括以下几个关键步骤：

处理缺失值：缺失值可能导致分析结果的不准确。可以选择删除含有缺失值的记录，或用均值、中位数等方法填充缺失值。
去除冗余数据：重复的记录会影响数据的准确性。清洗过程会检查并删除重复的行。
标准化数据格式：数据可能来自不同的来源，格式不一致。标准化过程包括统一日期格式、字符串大小写等。
识别并纠正错误：数据中可能存在输入错误（如拼写错误、格式错误），需要对其进行验证和更正。
处理异常值：异常值是指在数据集中明显偏离其他观察值的点，可能需要进行调查并决定是删除还是修正。
数据类型转换：确保数据类型与预期一致，比如将数值型数据转换为整数或浮点数。
转换与衍生变量：根据需要生成新的变量或特征，以便更好地进行分析。

通过数据清洗，分析人员可以确保数据集的质量，从而提高分析的有效性和准确性。Pandas是Python中最流行的数据处理库之一，它提供了强大的数据操作工具，使得数据清洗变得简单高效，本文将详细介绍如何使用Pandas进行数据清洗。

2. Pandas基础

2.1 安装与导入

确保你已安装Pandas库。如果还没安装，可以使用以下命令进行安装：

pip install pandas

导入Pandas库：

import pandas as pd

2.2 创建一个复杂的DataFrame

让我们创建一个包含多个特征的大型DataFrame，以便进行数据清洗和处理。我们将模拟一个员工数据集，包含员工的基本信息、薪资、入职日期等：

import numpy as np
from datetime import datetime, timedelta

# 创建数据
np.random.seed(42)
num_records = 1000
data = {
    'EmployeeID': range(1, num_records + 1),
    'Name': np.random.choice(['Alice', 'Bob', 'Charlie', 'David', 'Eva'], num_records),
    'Age': np.random.randint(20, 60, num_records),
    'Salary': np.random.uniform(30000, 120000, num_records),
    'Department': np.random.choice(['HR', 'IT', 'Finance', 'Marketing'], num_records),
    'JoiningDate': [datetime.now() - timedelta(days=np.random.randint(0, 365)) for _ in range(num_records)],
}

df = pd.DataFrame(data)
# 人为制造一些缺失值
df.loc[::50, 'Salary'] = np.nan  # 每50个记录缺失一个薪资
df.loc[::30, 'Age'] = np.nan      # 每30个记录缺失一个年龄

# 打印初始数据以查看
print("初始数据：")
print(df.head())
print("\n缺失值统计：")
print(df.isnull().sum())

输出内容：

初始数据：
   EmployeeID     Name  Age        Salary Department               JoiningDate
0           1    Bob   54   78387.784501         Marketing 2022-10-12 14:21:20.248048
1           2  Charlie   57