问题1
(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。
(2) 商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录?
(3) 请按照分位数将价格分为“高、较高、中、较低、低”5 个类别,再将 类别结果插入到标题一列之后,最后对类别列进行降序排序。
(4) 付款人数一栏有缺失值吗?若有则请利用上一问的分类结果对这些缺失 值进行合理估计并填充。
(5) 请将数据后四列合并为如下格式的 Series:商品发货地为 ××,店铺为 ××,共计 ×× 人付款,单价为 ××。
(6) 请将上一问中的结果恢复成原来的四列。





问题2
(1) 剔除国庆节、五一劳动节和每月第一个周一,求每月的平均最低气温。
(2) 季节指数是一种对于周期性变化序列的特征刻画。记数据集中第 k 年 平均最低气温为 TYk(k = 1, ..., 10),第 k 年第 j 个月平均最低气温为 。请按照如上定义,计算 12 个 ∑ TMkj TM (j = 1, ..., 12),定义 S = k kj j 月的季节指数 Sj。
(3) 移动平均法是一种时间序列的常见平滑方式,可分为 k 期移动平均和 k 期中心移动平均,都使用了某一时刻及其周围的数据对该时刻的数据进行平滑修正。





问题3
(1) 平均而言,周末单天用车量比工作日单天用车量更大吗?
(2) 工作日每天的高峰时间段大致为上午 7:30 至 9:30、下午 17:00 至 19:00, 请问 8 月里早高峰骑行记录量(以 start_time 为准)高于晚高峰的有 几天?
(3) 请给出在所有周五中(以 start_time 为准),记录条数最多的那个周五 所在的日期,并在该天内分别按 30 分钟、2 小时、6 小时统计摩拜单车 使用时间的均值。
(4) 请自行搜索相关代码或调用库,计算每条记录起点到终点的球面距离。
(5) 摩拜单车的骑行结束时间是以电子锁关闭的记录时间为准,但有时候用 户会忘记关锁,导致骑行时间出现异常。同时,正常人的骑行速度往往 大致落在一个合理的区间,请结合上一问中的球面距离和骑行起始、结 束时间,找出潜在的异常骑行记录。
(6) 由于路线的曲折性,起点到终点的球面距离往往不能充分反应行程长 度,请利用 track 列的路线坐标数据,计算估计实际骑行距离,并重新 仿照上一问的方法找出可能的异常记录。










这篇博客通过三个综合问题,探讨了数据分析中的常见任务,包括处理缺失值、数据分类、异常检测等。问题1涉及商品数据的清洗与统计分析,如删除缺失值、计算单价均值、对价格分位数分类等。问题2讨论了气候数据的季节指数计算和平滑方法。问题3聚焦于共享单车数据,分析了工作日与周末的用车量、骑行高峰时段以及异常骑行记录的识别。这些问题展示了数据分析在解决实际问题中的应用。
705

被折叠的 条评论
为什么被折叠?



