python使用Pandas进行数据清洗

最新推荐文章于 2025-09-14 18:04:12 发布

原创

最新推荐文章于 2025-09-14 18:04:12 发布 · 609 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #pandas #pip

Pandas是一个非常强大的数据清洗工具。下面是一个简单的Pandas实例，演示了如何使用Pandas进行数据清洗：

python 复制
import pandas as pd

# 假设我们有一个包含缺失值和重复值的CSV文件
data = pd.read_csv('dirty_data.csv')

# 显示原始数据
print("原始数据:")
print(data)

# 1. 处理缺失值
# 删除包含缺失值的行
data_dropna = data.dropna()
print("\n删除缺失值后的数据:")
print(data_dropna)

# 或者用某个值填充缺失值
data_fillna = data.fillna(value=0) # 假设我们用0填充缺失值
print("\n填充缺失值后的数据:")
print(data_fillna)

# 2. 处理重复值
# 删除重复行，保留第一个出现的行
data_drop_duplicates = data.drop_duplicates()
print("\n删除重复行后的数据:")
print(data_drop_duplicates)

# 3. 数据类型转换
# 假设我们有一个应该是整数的列，但其中包含了字符串
data['int_column'] = pd.to_numeric(data['int_column'], errors='coerce') # 无法转换的值将被设置为NaN
data_int_column_cleaned = data.dropna(subset=['int_column']) # 删除转换失败的行
print("\n整数列清洗后的数据:")
print(data_int_column_cleaned)

# 4. 重命名列名
# 如果列名不规范或需要更改，可以使用rename方法
d