首先导入数据,并读取前5行
然后处理店铺数据,清洗comment字段:先筛选出有‘条’字的评论,再用spilt分割数据,提取评论条数后转换数据类型,用的是astype转换,并查看前5行
清洗其他字段也是一样的处理,比如清洗人均价格这个字段,这里是从¥开始分割,因为有‘人均’这俩字的不一定附带着价格,但是有‘¥’的就一定带有价格且人均价格的数字在最后一个位置,所以是提取[-1]这个位置上的数字,从前往后[0]开始,从后往前[-1]开始。
如果我想提取星级字段中的数字,那得先筛选出有‘准’字的数据,然后再提取数字
总结一下上面清洗字段的套路,我觉得是先给字段定位,也就是定位到一个能唯一找到所提取内容的位置,和筛选数据一个意思,然后再对数据进行分割,提取内容然后转换一下数据类型就可以了。