用python清洗淘宝网的爬虫数据

最新推荐文章于 2022-07-12 11:48:14 发布

大桥子

最新推荐文章于 2022-07-12 11:48:14 发布

阅读量727

点赞数 4

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python 数据清洗

本文链接：https://blog.youkuaiyun.com/xiaoqiaomuo/article/details/95334983

本文讲述了使用Python对从淘宝网爬取的数据进行清洗的过程，重点在于处理'人付款'字段，将'7.5万+'等格式转换为数字。通过替换、正则表达式和条件判断实现了数据的清洗，最终得到了可用于分析的销量数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

最近用python爬取了淘宝网的数据，部分数据展示如下：
现在觉得螺蛳粉简直太美味了为了购买到性价比最高的螺蛳粉，需要综合购买量和价格进行分析
购买变量的数据清洗

‘人付款’需要去掉
7.5万+需要转换为75000
9500+需要去掉+

解题思路

‘人付款’可以用空格替换掉
用正则表达式取出数字
数字处理用if语句判断数据单位是否带‘万’处理

代码

#载入各种包
import pandas as pd
import re


#打开数据集
data = pd.read_excel('F:/参考文件/python/python100/luoshifen.xls')

#查看数据

# print(data.shape)       #数据集行和列
# print(data.columns)     #列名
# print(data.head())      #开始五行
# print('=================')
# print(data.tail())      #结尾五行
# print(data.describe())  #度量的描述

#空值判断
# data.isnull().any()        #任一列有空值则为真
#
# total=data.isnull().sum().sort_values(ascending=False)
# print(total)

#数据清洗

# 先转化为列表
l1 = list(data['购买'])
# print(l1)

for i in range(0, len(l1)):
    l1[i] = l1[i].replace('人付款',