此系列为博雅数智举办的线上培训课程——python数据科学实践,为期两个月,本系列记录我在此课程中所学所思。
本节课总览:
本节课所用到的知识点:正则表达式、apply方法、lambda表达式、str.split、str.replace
实践
数据集:某图书网站数据清洗 (idatascience.cn)
1、拿到数据第一件事:数据诊断
预览数据前、后、随机10行,了解数据字段含义及数据格式,为后续清洗做准备。
以【出版信息】列为例,可查看总共计数有600条出版社数据,有420个不重复的出版社, 出现次数最多的是机械工业出版社,13次。
还使用dada.describe()查看全部数值型字段的数据分布情况(计数、均值、标准值、最大最小值、分布概率),此数据中仅【当前价格】列符合要求。 后续将出一个文本型数据描述性分析的文章。
<