电子商务点击流数据建模与分析
1. 点击流会话事实表设计
在拥有一系列有用的点击流维度后,可基于Web服务器日志数据设计主要的点击流维度模型,该业务流程能集成到其他网络零售主题领域中。
为避免首个事实表规模过大,选择以每个完整的客户会话为一行的粒度。此粒度远高于底层Web服务器日志,服务器日志会记录每个单独的页面事件,包括单个页面及页面上的每个图形元素。虽通常建议从源系统中最细粒度的数据开始设计,但这是有意偏离标准做法。例如,一个大型网站每天可能记录超过1亿次页面获取和10亿个微页面事件(图形元素),但可从每天加载更易管理的行数开始。假设1亿次页面获取可归结为2000万个完整的访客会话,若平均每个访客会话访问5个页面,就会出现这种情况。
适合首个事实表的维度有:日历日期、一天中的时间、客户、页面、会话和推荐来源。此外,还可添加一组针对该会话的度量事实,包括会话秒数、访问页面数、下单数、订购单位数和订单金额。完整设计如下表所示:
| 表名 | 字段 | 说明 |
|---|---|---|
| Date Dimension (2 views for roles) | Universal Date Key (FK)、Universal Date/Time、Local Date Key (FK)、Local Date/Time | 日期维度相关字段,有两个角色视图 |
| Clickstream Session |
超级会员免费看
订阅专栏 解锁全文
1459

被折叠的 条评论
为什么被折叠?



