时间序列分析:丹佛犯罪数据的深入洞察
1. 数据选择与切片基础
在处理丹佛犯罪数据时,我们首先要了解如何根据日期智能地选择和切片数据。使用基于标签的 .loc 索引器时,返回结果会包含结束日期当天发生的所有犯罪,无论具体时间。例如:
crime.loc['2015-3-4 22':'2016-1-1 11:45:00'].sort_index()
同时,hdf5 文件有一个很好的特性,它能保留每列的数据类型,从而显著减少内存需求。以犯罪数据为例,将 OFFENSE_TYPE_ID 、 OFFENSE_CATEGORY_ID 和 NEIGHBORHOOD_ID 三列存储为 pandas 类别类型,相比存储为对象类型,内存使用量可减少到四分之一:
mem_cat = crime.memory_usage().sum()
mem_obj = crime.astype({'OFFENSE_TYPE_ID':'object',
'OFFENSE_CATEGORY_ID':'object',
'NEIGHBORHOOD_ID':'object'}) \
.memory_usage(deep=True).sum()
mb = 2 ** 20
round(mem_c
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



