今日内容:
- 1) 教育项目的架构说明 (理解)
- 2) cloudera manager 基本介绍 (了解)
- 3) 教育项目环境搭建 (参考搭建笔记, 搭建成功)
- 4) 数据仓库的基本介绍(回顾) -- 理解
- 5) 维度分析的基本内容 -- 理解
- 6) 数仓建模的基本内容 -- 理解
- 7) 教育数仓分层架构 -- 理解
1. 教育项目的架构说明

项目的架构:
基于cloudera manager大数据统一管理平台, 在此平台之上构建大数据相关的软件(zookeeper,HDFS,YARN,HIVE,OOZIE,SQOOP,HUE...), 除此以外, 还使用FINEBI实现数据报表展示
各个软件相关作用:
zookeeper: 集群管理工具, 主要服务于hadoop高可用以及其他基于zookeeper管理的大数据软件
HDFS: 主要负责最终数据的存储
YARN: 主要提供资源的分配
HIVE: 用于编写SQL, 进行数据分析
oozie: 主要是用来做自动化定时调度
sqoop: 主要是用于数据的导入导出
HUE: 提升操作hadoop用户体验, 可以基于HUE操作HDFS, HIVE ....
FINEBI: 由帆软公司提供的一款进行数据报表展示工具
项目架构中: 数据流转的流程
首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理
面试题:
请介绍一下最近做了一个什么项目? 为什么要做, 以及项目的架构和数据流转流程
请介绍项目的架构是什么方案? 项目的架构和 数据流转的流程
整个项目各个软件是如何交互的? 数据流转的流程
2. cloudera manager基本介绍
大数据的发行版本, 主要有三个发行版本: Apache 官方社区版本, cloudera 推出CDH商业版本, Hortworks推出的HDP商业免费版本, 目前HDP版本已经被cloudera 收购了
Apache版本Hadoop生态圈组件的优点和弊端:
优点:
- 完全开源,更新速度很快
- 大数据组件在部署过程中可以深刻了解其底层原理
- 可以了解各个组件的依赖关系
缺点
- 部署过程极其复杂,超过20个节点的时候,手动部署已经超级累
- 各个组件部署完成后,各个为政,没有统一化管理界面
- 组件和组件之间的依赖关系很复杂,一环扣一环,部署过程心累
- 各个组件之间没有统一的metric可视化界面,比如说hdfs总共占用的磁盘空间、IO、运行状况等
- 优化等需要用户自己根据业务场景进行调整(需要手工的对每个节点添加更改配置,效率极低,我们希望的是一个配置能够自动的分发到所有的节点上)
为了解决上述apache产生问题, 出现了一些商业化大数据组件, 其中以 cloudera 公司推出 CDH版本为主要代表
CDH是Apache Hadoop和相关项目中最完整、最稳定的、经过

本文介绍了基于Cloudera Manager的大数据教育项目架构,包括软件选择、数据流转流程、环境搭建步骤及注意事项。重点讲解了数据仓库的基本概念、维度分析、数仓建模等内容。
最低0.47元/天 解锁文章
721

被折叠的 条评论
为什么被折叠?



