前言
接上一篇数据爬取的信息进行数据清洗。
一、数据清洗是什么?
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查 数据一致性 ,处理无效值和 缺失值 等。 与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 数据清洗 (Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供 数据一致性 。
二、我的代码呈现
1.引入包
代码如下(示例):
import pandas as pd
import numpy as np
import os
2.读入数据
代码如下(示例):
df=pd.read_excel('C:/python/b站电影排行榜前100.xls')
#查看数据
df.info()
df.head(100)
3.数据清洗
#自定义函数
def fun(x):
if '$' in str(x):
x=str(x).strip('$')
x=str(x).replace(',','')
else:
x=str(x).replace(',','')
return str(x)