pandas数据清洗实例-apply|applymap
*pandas数据清洗
*apply()函数、applymap()函数应用
*正则表达式
前言
从某网中爬取了上海浦东地区的房价数据【数据下载】,如下所示,发现“单价”和“房屋总价”两项数据都是文本型数据,且都含有单位或者标点符号,不利于分析、应用。接下来,我就通过正则表达式的方式来对数据进行处理。
(一)利用正则表达式提取数字
考虑到数据既有数字又有汉字和标点符号,而且“单价”中的数字是被逗号分隔开。那么可以通过采取将汉字和标点符号全部去除的方式,来保留纯数字。正则表达式如下:
re.sub("\D","",str)
\D:匹配费数字,sub函数将所有非数字替换成“”
(二)将“单价”和“房屋总价”两列数据整体应用上述正则表达式
接下来就是要解决怎么将“单价”和“房屋总价”两列数据都通过正则表达式,进行数据清洗。
apply()函数: 用于Series实现对每个值进行某种运算,或者是用于Dataframe实现