数据处理与分析实战:多数据集案例解析
1. 1.usa.gov 数据处理
1.1 数据背景与获取
在 2011 年,URL 缩短服务 bit.ly 与美国政府网站 usa.gov 合作,提供了从缩短以 .gov 或 .mil 结尾链接的用户那里收集的匿名数据。除了实时数据流,每小时的快照数据还可以作为可下载的文本文件获取。这些文件中的每一行都包含一种常见的 Web 数据格式 JSON(JavaScript Object Notation)。
1.2 JSON 数据解析
以下是使用 Python 的 json 模块将 JSON 字符串转换为 Python 字典对象的示例代码:
import json
path = 'ch02/usagov_bitly_data2012-03-16-1331923249.txt'
records = [json.loads(line) for line in open(path)]
这里使用了列表推导式,将文件中的每一行 JSON 字符串转换为 Python 字典。可以通过以下方式访问字典中的值:
print(records[0]['tz'])
1.3 统计时区数量
1.3.1 提取时区列表
最初尝试提取时区列表时,可能会遇到 KeyError ,因为并非所有记录都包含时区字段
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



