统计分析:从数据洞察到假设检验
1. 无记忆分布与数据初步分析
无记忆分布中,继续持续额外 x 分钟的概率不受已过去时间的影响。指数分布的无记忆特性在一定程度上解释了为何预测地震的下次发生时间如此困难,我们需依靠其他证据(如地磁扰动)而非已过去的时间。
在网站访客停留时间数据方面,中位数停留时间为 64 秒,这意味着约一半的访客仅在网站停留约一分钟;而平均停留时间为 93 秒,表明部分访客停留时间远长于此。这些统计数据基于过去 6 个月的所有访客数据。接下来,我们将计算每日的统计数据变化。
2. 每日均值分布
网络团队提供的文件包含访问时间戳。为按天聚合数据,需去除日期中的时间部分。可使用字符串操作实现,但更灵活的方法是使用日期和时间库(如 clj - time)解析字符串。clj - time 库不仅能去除时间,还能执行任意复杂的过滤操作。
以下是相关代码:
(defn with-parsed-date [data]
(i/transform-col data :date (comp tc/to-local-date f/parse)))
(defn filter-weekdays [data]
(i/$where {:date {:$fn p/weekday?}} data))
(defn mean-dwell-times-by-date [data]
(i/$rollup :mean :dwell-time :date data))
(defn daily-mean-dwell-times [data]
(->> (wi
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



