常用的数据清洗方法有:字符串操作、正则表达式和第三方库。
常用数据清洗的字符串操作有截取、替换、查找和分割。
- 截取:str[开始位置 : 结束位置 : 间隔位置] #默认开始位置为0#
- 替换:str.replace('被替换的内容','替换后的内容') #replace()方法替换字符串后仅为临时变量,需重新赋值才能保存#
- 查找:str.find('要查找的内容',[开始位置,结束位置]) #默认从0开始,返回目标第一个内容的位置,若未查找到,则返回-1#
- 分割:str.split(‘分割符’,分割次数) #分割后,返回一个列表类型数据#
注:字符串操作可以解析HTML,但纯字符串解析HTML会导致代码冗长,不便维护。字符串操作一般用于个别数据清洗,且数据具有一定的特征。