【实践系列介绍】:
各位看官,本ID描述的【大数据数据实践】系列,目前暂定为三期工程:
1 期 : Storm 实时大数据处理
2期 :impala 数据仓库体系建设
3期 :Spark离线挖掘系统以及Storm数据推荐系统
此系列博文将持续更新,对更新的频率本ID暂定:
1 : 如果属于代码阶段,那本ID将保证每日一篇
2 :如果属于业务梳理阶段,本ID将每星期做一次背景介绍:
首先:业务的梳理需要持续的思考,阶段性的思考未必准确,即便贴上博文,价值也不太大。
其次:具体的代码实现,将力争每日一篇,如果未有及时跟新,本ID也将及时回补。
本章内容:
到目前为止,我们的数据模型为:PhPStat网站浏览统计系统,网址为:
http://www.topstat.cn/login.php?ln=demo&lp=demo123
点击页面进入
请你点击电分析
我们将查看
我们在目前需要做的大概有三个主要的模型
其一: 访客分析
其二:订单分析
其三:商品分析
所谓的访客分析就是我们的浏览日志,在浏览日志之中,同样包括了一些商品信息
另外的一部分是属于订单信息,订单信息是对于我们订单业务的一种描述。
在这里我们举个例子说明:
订单数据原始格式:
指标:订单金额,订单次数,是否付款,付款金额
简单的浏览原始数据格式
指标:
也就是说我们目前的功能,在报表之中,是一个多属性查询的问题? 对于当个维度下的,多个维度下【一般少于三个维度】会进行维度拆分。
在Storm之中有没有没有更好的办法来处理全属性查询?