从零开始学Python数据分析与挖掘之Python数据处理工具----Pandas
- 在做项目时最重要的就是准备数据,在准备数据过程中重要的一步就是数据清洗,数据清洗的工作一般包括,检查数据集是否存在重复,是否数据集中数据有缺失,数据是否具有完整性与一致性、数据之中是否有异常值
数据清洗之重复观测处理
# 数据读入
df = pd.read_excel('C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\shujufenxi\\第5章 Python数据处理工具--Pandas\\data_test04.xlsx')
# 重复观测的检测
print('数据集中是否存在重复观测:\n',any(df.duplicated()))
# 删除重复项
df.drop_duplicates(inplace = True)
print(df)
数据清洗之缺失值处理
# 数据读入
df = pd.read_excel('C:\\Users\\Administrator.SKY-20180518VHY\\Desktop\\shujufenxi\\第5章 Python数据处理工具--Pandas\\data_test05.xlsx')
# 缺失观测的检测
print('数据集中是否存在缺失值:\n',any(df.isnull()))