用python清洗淘宝网的爬虫数据

本文讲述了使用Python对从淘宝网爬取的数据进行清洗的过程,重点在于处理'人付款'字段,将'7.5万+'等格式转换为数字。通过替换、正则表达式和条件判断实现了数据的清洗,最终得到了可用于分析的销量数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题

最近用python爬取了淘宝网的数据,部分数据展示如下:
现在觉得螺蛳粉简直太美味了为了购买到性价比最高的螺蛳粉,需要综合购买量和价格进行分析
购买变量的数据清洗

  1. ‘人付款’需要去掉
  2. 7.5万+需要转换为75000
  3. 9500+需要去掉+

解题思路

  1. ‘人付款’可以用空格替换掉
  2. 用正则表达式取出数字
  3. 数字处理用if语句判断数据单位是否带‘万’处理

代码

#载入各种包
import pandas as pd
import re


#打开数据集
data = pd.read_excel('F:/参考文件/python/python100/luoshifen.xls')

#查看数据

# print(data.shape)       #数据集行和列
# print(data.columns)     #列名
# print(data.head())      #开始五行
# print('=================')
# print(data.tail())      #结尾五行
# print(data.describe())  #度量的描述

#空值判断
# data.isnull().any()        #任一列有空值则为真
#
# total=data.isnull().sum().sort_values(ascending=False)
# print(total)

#数据清洗

# 先转化为列表
l1 = list(data['购买'])
# print(l1)

for i in range(0, len(l1)):
    l1[i] = l1[i].replace('人付款',
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值