后续链接第二部分,第二部分请点击:基于Hive的教育平台数据仓库分析案例(二)
后续链接第三部分,第三部分请点击:基于Hive的教育平台数据仓库分析案例 (三)
案例背景:
大数据技术的应用可以从海量的用户行为数据中进行挖掘分析,根据分析结果优化平台的服务质量,最终满足用户的需求。教育大数据分析平台项目就是将大数据技术应用于教育培训领域,为企业经营提供数据支撑。
案例数据产生流程:
案例数据流转:
首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理
案例需求:
- 建立集团数据仓库,统一集团数据中心,把分散的业务数据进行预先处理和存储
- 根据业务分析需要,从海量的用户行为数据中进行挖掘分析,定制多维的数据集合,形成数据集市,供各个场景主题使用。
- 前端业务数据展示选择和控制,选取合适的前端数据统计、分析结果展示工具。
案例架构:
案例工具:
zookeeper: 集群管理工具, 主要服务于hadoop高可用以及其他基于zookeeper管理的大数据软件
HDFS: 主要负责最终数据的存储
YARN: 主要提供资源的分配HIVE: 用于编写SQL, 进行数据分析
oozie: 主要是用来做自动化定时调度
sqoop: 主要是用于数据的导入导出HUE: 提升操作hadoop用户体验, 可以基于HUE操作HDFS, HIVE ....
FINEBI: 由帆软公司提供的一款进行数据报表展示工具
案例数据架构:
将调研需求转换为开发需求
如何转换:
将每一个需求中涉及到维度以及涉及到指标从需求中分析出来, 同时找到涉及到那些表, 以及那些字段目的:
涉及维度
涉及指标
涉及表
涉及字段在此基础上, 还需要找到需要清洗那些数据, 需要转换那些数据, 如果有多个表, 表与表关联条件是什么...
访问和咨询用户模块:
总访问客户量、地区独立访客热力图、访客咨询率趋势、客户访问量和访客咨询率双轴趋势、时间段访问客户量趋势、来源渠道访问量占比、搜索来源访问量占比、跃页面排行榜
意向用户模块:
意向学员位置热力图、总意向量、意向学科排名、意向校区排名、来源渠道占比、意向贡献中心占比
有效线索模块:
有效线索转化率、有效线索转化率时间段趋势、有效线索量
报名用户模块:
校区报名柱状图、学科报名柱状图、总报名量、线上报名量、意向用户报名转化率、有效线索报名转化率、日报名趋势图、校区学科的报名学员TOP来源渠道占比、咨询中心报名贡献
学生出勤模块:
班级出勤人数、班级出勤率、班级迟到人数、