hadoop学习---基于Hive的教育平台数据仓库分析案例(一)

后续链接第二部分,第二部分请点击:基于Hive的教育平台数据仓库分析案例(二)

后续链接第三部分,第三部分请点击:基于Hive的教育平台数据仓库分析案例   (三)

案例背景

大数据技用可以海量的用为数据中掘分析根据分析结化平台的服务质最终满足用的需求。教育大据分析平台项目就是据技术应用于培训领业经营提供据支撑。

案例数据产生流程:

案例数据流转:

 首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理

案例需求:

  1. 建立集团数仓库一集团数据中心把分散的业务数理和存
  2. 根据业务分析需要海量的用为数据中掘分析定制多维据集合形成数据集市供各个场景主题使用。
  3. 前端业务数据展示选择和控制取合适的前端统计分析结展示工具。

 案例架构:

 案例工具:

zookeeper: 集群管理工具, 主要服务于hadoop高可用以及其他基于zookeeper管理的大数据软件
HDFS:  主要负责最终数据的存储
YARN: 主要提供资源的分配

HIVE: 用于编写SQL, 进行数据分析
oozie:  主要是用来做自动化定时调度
sqoop: 主要是用于数据的导入导出

HUE: 提升操作hadoop用户体验, 可以基于HUE操作HDFS, HIVE ....
FINEBI: 由帆软公司提供的一款进行数据报表展示工具

案例数据架构:

将调研需求转换为开发需求

如何转换: 
    将每一个需求中涉及到维度以及涉及到指标从需求中分析出来, 同时找到涉及到那些表, 以及那些字段

目的:
    涉及维度
    涉及指标
    涉及表
    涉及字段

在此基础上, 还需要找到需要清洗那些数据, 需要转换那些数据, 如果有多个表, 表与表关联条件是什么...

 访问和咨询用户模块:

总访问客户量、地区独立访客热力图、访客咨询率趋势、客户访问量和访客咨询率双轴趋势、​​时间段访问客户量趋势、来源渠道访问量占比、搜索来源访问量占比、跃页面排行榜

意向用户模块:

意向学员位置热力图、总意向量、意向学科排名、意向校区排名、来源渠道占比、意向贡献中心占比

有效线索模块:

有效线索转化率、有效线索转化率时间段趋势、有效线索量

报名用户模块:

校区报名柱状图、学科报名柱状图、总报名量、线上报名量、意向用户报名转化率、有效线索报名转化率、日报名趋势图、校区学科的报名学员TOP来源渠道占比、咨询中心报名贡献

学生出勤模块:

班级出勤人数、班级出勤率、班级迟到人数、

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值