Task05:综合练习

这篇博客通过三个综合问题,探讨了数据分析中的常见任务,包括处理缺失值、数据分类、异常检测等。问题1涉及商品数据的清洗与统计分析,如删除缺失值、计算单价均值、对价格分位数分类等。问题2讨论了气候数据的季节指数计算和平滑方法。问题3聚焦于共享单车数据,分析了工作日与周末的用车量、骑行高峰时段以及异常骑行记录的识别。这些问题展示了数据分析在解决实际问题中的应用。

问题1

(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。

(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?

(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别,再将 类别结果插入到标题一列之后,最后对类别列进行降序排序。

(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失 值进行合理估计并填充。

(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××,店铺为 ××,共计 ×× 人付款,单价为 ××。

(6) 请将上一问中的结果恢复成原来的四列。

问题2

(1) 剔除国庆节、五一劳动节和每月第一个周一,求每月的平均最低气温。

(2) 季节指数是一种对于周期性变化序列的特征刻画。记数据集中第 k 年 平均最低气温为 TYk(k = 1, ..., 10),第 k 年第 j 个月平均最低气温为 。请按照如上定义,计算 12 个 ∑ TMkj TM (j = 1, ..., 12),定义 S = k kj j 月的季节指数 Sj。

(3) 移动平均法是一种时间序列的常见平滑方式,可分为 k 期移动平均和 k 期中心移动平均,都使用了某一时刻及其周围的数据对该时刻的数据进行平滑修正。

问题3

(1) 平均而言,周末单天用车量比工作日单天用车量更大吗?

(2) 工作日每天的高峰时间段大致为上午 7:30 至 9:30、下午 17:00 至 19:00, 请问 8 月里早高峰骑行记录量(以 start_time 为准)高于晚高峰的有 几天?

(3) 请给出在所有周五中(以 start_time 为准),记录条数最多的那个周五 所在的日期,并在该天内分别按 30 分钟、2 小时、6 小时统计摩拜单车 使用时间的均值。

(4) 请自行搜索相关代码或调用库,计算每条记录起点到终点的球面距离。

(5) 摩拜单车的骑行结束时间是以电子锁关闭的记录时间为准,但有时候用 户会忘记关锁,导致骑行时间出现异常。同时,正常人的骑行速度往往 大致落在一个合理的区间,请结合上一问中的球面距离和骑行起始、结 束时间,找出潜在的异常骑行记录。

(6) 由于路线的曲折性,起点到终点的球面距离往往不能充分反应行程长 度,请利用 track 列的路线坐标数据,计算估计实际骑行距离,并重新 仿照上一问的方法找出可能的异常记录。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值