以下是我对共享单车项目分析的案例
数据来源:Bike Sharing Demand | Kagglewww.kaggle.com
一. 需要分析的问题
结合数据集中天气、温度、日期等因素,分析美国某城市共享单车使用情况。
二. 理解数据
使用pandas.read_csv方法读取数据集,查看其前五行。
我们可以看到数据集拥有12个标签:
datetime:时间(年-月-日 时:分:秒)
season:季节(1:春天,2:夏天,3:秋天,4:冬天)
holiday:节假日(0:否,1:是)
workingday:工作日,即这一天既不是法定节假日也不是周末(0:否,1:是)
weather:天气(1:晴天,2:阴天,3:小雪或小雨,4:大雨,冰雹或雷暴
temp:实际温度(摄氏度)
atemp:感受温度(摄氏度)
humidity:湿度
windspeed:风速
casual:未注册用户租借数量
registered:注册用户租借数量
count:总租借数量
观察数据,我们可以发现,count 主要分析的对象,分析其它因素与count相关关系。
三. 数据清洗
我们看一下训练数据的总体情况:
通以上图,数据整洁并且无缺失数据。
四. 特征工程
1.把时间数据转为年月日小时星期几的新特征
通过时间细化,更详细地知道各种时间对租车人数的关系
2. 数据关系
通过corr()了解租车人数与其它因素之间的关系

本案例通过Python分析美国某城市共享单车使用情况,涉及数据读取、特征工程和可视化。研究了时间、天气、温度、湿度和风速等因素对共享单车需求的影响,发现上下班高峰、春夏季节、适宜的气温和湿度以及低风速条件下,共享单车使用量显著增加。
最低0.47元/天 解锁文章
2198

被折叠的 条评论
为什么被折叠?



