介绍
案例来着《从Excel到Python——数据分析进阶指南》,作者:王彦平
根据此书中,990万次骑行案例,进行实际操作。代码与笔记如下。
案例
一,数据来源
案例数据来着花旗单车Citi Bike,此案例中数据选自2015年全年数据。下载解压到同一文件夹中。
二,分析数据
导入所需包,后期可能会增加。
import numpy as np
import pandas as pd
import time, datetime
import matplotlib.pyplot as plt
首先导入1月份数据
cb1 = pd.DataFrame(pd.read_csv('201501-citibike-tripdata.csv'))
将其他月份数据导入,汇总。
a = ['02', '03', '04', '05', '06', '07', '08', '09', '10', '11', '12']
for i in a:
cb2 = pd.DataFrame(pd.read_csv('2015{}-citibike-tripdata.csv'.format(i)))
cb1 = cb1.append(cb2, ignore_index=True)
print(cb2.shape, cb1.shape)
记:因为文章中没有仔细的步骤,所以我按照自己的方法导入了数据,在append这部分上产生了疑惑,因为我之前的代码是cb = cb1.append(cb2, ignore_index=True),后期发现cb的值有问题,而且一直没有找到原因所在,我以为append在我的每次遍历的时候都是自动添加的,可是最后的数据却不是,后来百度了一下,发现应该改为cb1 = cb1.append(cb2, ignore_index=True),这样才会在原数据上增加。
唯一租赁点数量计数

唯一自行车ID计数
Citi Bike数据分析:揭示990万次骑行的秘密

本文基于《从Excel到Python——数据分析进阶指南》中的990万次骑行案例,详细介绍了如何分析Citi Bike的骑行数据。内容包括数据来源、数据导入与整合、骑行次数的月度和季度统计、用户性别和年龄分布、会员类别分析、24小时租赁次数、骑行时间、速度和温度的关系,以及骑行路线的探讨。在分析过程中,遇到了数据拼接问题、图形绘制的调整等技术细节。
最低0.47元/天 解锁文章
2102





