Hive数仓项目架构说明、环境搭建及数据仓库基础知识

本文介绍了基于Cloudera Manager的大数据教育项目架构,包括软件选择、数据流转流程、环境搭建步骤及注意事项。重点讲解了数据仓库的基本概念、维度分析、数仓建模等内容。

今日内容:

  • 1) 教育项目的架构说明 (理解)
  • 2) cloudera manager 基本介绍 (了解)
  • 3) 教育项目环境搭建 (参考搭建笔记, 搭建成功)
  • 4) 数据仓库的基本介绍(回顾) -- 理解
  • 5) 维度分析的基本内容 -- 理解
  • 6) 数仓建模的基本内容 -- 理解
  • 7) 教育数仓分层架构 -- 理解

1. 教育项目的架构说明

项目的架构: 
    基于cloudera manager大数据统一管理平台, 在此平台之上构建大数据相关的软件(zookeeper,HDFS,YARN,HIVE,OOZIE,SQOOP,HUE...), 除此以外, 还使用FINEBI实现数据报表展示

各个软件相关作用:
    zookeeper: 集群管理工具, 主要服务于hadoop高可用以及其他基于zookeeper管理的大数据软件
    HDFS:  主要负责最终数据的存储
    YARN: 主要提供资源的分配
    HIVE: 用于编写SQL, 进行数据分析
    oozie:  主要是用来做自动化定时调度
    sqoop: 主要是用于数据的导入导出
    HUE: 提升操作hadoop用户体验, 可以基于HUE操作HDFS, HIVE ....
    FINEBI: 由帆软公司提供的一款进行数据报表展示工具

项目架构中: 数据流转的流程
    首先业务是存储在MySQL数据库中, 通过sqoop对MySQL的数据进行数据的导入操作, 将数据导入到HIVE的ODS层中, 对数据进行清洗转换成处理工作, 处理之后对数据进行统计分析, 将统计分析的结果基于sqoop在导出到MySQL中, 最后使用finebi实现图表展示操作, 由于分析工作是需要周期性干活, 采用ooize进行自动化的调度工作, 整个项目是基于cloudera manager进行统一监控管理


面试题: 
    请介绍一下最近做了一个什么项目? 为什么要做, 以及项目的架构和数据流转流程

    请介绍项目的架构是什么方案? 项目的架构和 数据流转的流程

    整个项目各个软件是如何交互的?   数据流转的流程

2. cloudera manager基本介绍

​ 大数据的发行版本, 主要有三个发行版本: Apache 官方社区版本, cloudera 推出CDH商业版本, Hortworks推出的HDP商业免费版本, 目前HDP版本已经被cloudera 收购了

Apache版本Hadoop生态圈组件的优点和弊端:

优点:

  • 完全开源,更新速度很快
  • 大数据组件在部署过程中可以深刻了解其底层原理
  • 可以了解各个组件的依赖关系

缺点

  • 部署过程极其复杂,超过20个节点的时候,手动部署已经超级累
  • 各个组件部署完成后,各个为政,没有统一化管理界面
  • 组件和组件之间的依赖关系很复杂,一环扣一环,部署过程心累
  • 各个组件之间没有统一的metric可视化界面,比如说hdfs总共占用的磁盘空间、IO、运行状况等
  • 优化等需要用户自己根据业务场景进行调整(需要手工的对每个节点添加更改配置,效率极低,我们希望的是一个配置能够自动的分发到所有的节点上)

为了解决上述apache产生问题, 出现了一些商业化大数据组件, 其中以 cloudera 公司推出 CDH版本为主要代表

CDH是Apache Hadoop和相关项目中最完整、最稳定的、经过

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值