Pandas是一个非常强大的数据清洗工具。下面是一个简单的Pandas实例,演示了如何使用Pandas进行数据清洗:
python 复制
import pandas as pd
# 假设我们有一个包含缺失值和重复值的CSV文件
data = pd.read_csv('dirty_data.csv')
# 显示原始数据
print("原始数据:")
print(data)
# 1. 处理缺失值
# 删除包含缺失值的行
data_dropna = data.dropna()
print("\n删除缺失值后的数据:")
print(data_dropna)
# 或者用某个值填充缺失值
data_fillna = data.fillna(value=0) # 假设我们用0填充缺失值
print("\n填充缺失值后的数据:")
print(data_fillna)
# 2. 处理重复值
# 删除重复行,保留第一个出现的行
data_drop_duplicates = data.drop_duplicates()
print("\n删除重复行后的数据:")
print(data_drop_duplicates)
# 3. 数据类型转换
# 假设我们有一个应该是整数的列,但其中包含了字符串
data['int_column'] = pd.to_numeric(data['int_column'], errors='coerce') # 无法转换的值将被设置为NaN
data_int_column_cleaned = data.dropna(subset=['int_column']) # 删除转换失败的行
print("\n整数列清洗后的数据:")
print(data_int_column_cleaned)
# 4. 重命名列名
# 如果列名不规范或需要更改,可以使用rename方法
d