【python线上培训专题】1某图书网站数据清洗

这是一篇关于Python线上培训课程的内容,主要涉及某图书网站的数据清洗。首先进行数据诊断,了解数据字段和格式。然后,通过正则表达式、apply方法等技术,提取价格、评论、星级、作者、出版时间和出版社等信息,并删除不必要的列,实现数据清洗。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

此系列为博雅数智举办的线上培训课程——python数据科学实践,为期两个月,本系列记录我在此课程中所学所思。

本节课总览:

本节课所用到的知识点:正则表达式、apply方法、lambda表达式、str.split、str.replace


实践

数据集:某图书网站数据清洗 (idatascience.cn)

1、拿到数据第一件事:数据诊断

预览数据前、后、随机10行,了解数据字段含义及数据格式,为后续清洗做准备。

以【出版信息】列为例,可查看总共计数有600条出版社数据,有420个不重复的出版社, 出现次数最多的是机械工业出版社,13次。

还使用dada.describe()查看全部数值型字段的数据分布情况(计数、均值、标准值、最大最小值、分布概率),此数据中仅【当前价格】列符合要求。 后续将出一个文本型数据描述性分析的文章。

 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值