数据清洗与可视化分析1

该博客介绍了如何使用Python进行数据清洗,包括Json数据的正确读取方法,对timezone数据进行统计分析,如使用defaultdict处理缺失值,以及利用pandas的value_counts进行计数。此外,还涉及了如何处理缺失值异常值,展示了对timezone的分布情况,如America/New_York、Unknown等的计数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源:https://www.programmer-books.com/wp-content/uploads/2019/04/Python-for-Data-Analysis-2nd-Edition.pdf

Json 数据转换

os.chdir() 方法用于改变当前工作目录到指定的路径。
用法:os.chdir(path),path – 要切换到的新路径。如果允许访问返回 True , 否则返回False。
在这里插入图片描述
可见读取出来的json是乱码的,应该用以下方式读取:

records=[json.loads(line) for line in open(path)]
records[0]  

将文件的每一行以json文件格式读取,并存在列表里面。output显示:第一行数据是一个大的字典。字典的键是列名,值是读取的数据。

所用数据以表形式如下:

在这里插入图片描述

对timezone数据进行统计分析

抓取包含timezone的数据,加个if是防止有些行timezone数据不存在报错。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值