文章目录
一、 大数据部门流程介绍
1.1 大数据部门业务流程分析
产品人品提需求(主要是公司各部门不限于产品经理)
→
数据部门搭数据平台、分析数据指标
→
数据可视化(报表、邮件、大屏幕展示等)
1.2 大数据部门组织结构
一般为大型互联网公司。
二、Hadoop概述
2.1 Hadoop是什么
Hadoop是一个由Apache基金会开发的分布式系统基础架构。
主要解决,海量数据的存储和海量数据的分析计算问题。
大数据一般指量级在PB量级以上的数据存储。
2.2 三大发行版本
1.Apache;2.Cloudera;3.Hortonworks
2.3 Hadoop的四大优势
1、高可靠性:底层有多个数据副本,可理解为复制了很多份数据。
2、高扩展性:在集群间分配任务数据,需要的时候可以加集群数。
3、高效性:并行工作,加快工作速度。
4、高容错性:可以自动将失败的任务重新分配。
2.4 Hadoop组成
Hadoop 1.x组成:
MapReduce(计算和资源调度)+ HDFS(数据存储) + Common(辅助工具)
Hadoop 2.x组成:
MapReduce(计算)+ Yarn(资源调度)+ HDFS(数据存储) + Common(辅助工具)
1.HDFS架构
HDFS(Hadoop Distributed File System)架构:
(1)NameNode(nn)
它存储文件的元数据(描述数据的数据),就是数据的目录。
(2)DataNode(dn)
存储文件数据本身。但是Hadoop的优势就是它有数据的备份。
(3)Secondary NameNode(2nn)
2.Yarn架构
1)ResourceManager(RM)
说明 首先RM一个集群只有一个,管理集群所有的调度情况(比喻为公司的Boss)
作用:1.处理客户端请求;2.监控NodeManager;3.启动或监控ApplicationMaster;4.资源调度和分配。
2)NodeManager(NM)
(NM可比喻为一个公司的普通员工)
作用:1.管理单个节点上的资源;(根据比喻,相当于完成自己的任务,管理自己的区域)
2.处理来自RM的命令;(听从Boss的安排)
3.处理来自AM的命令(听从某一个项目的负责人安排)
3)ApplicationMaster(AM)
(AM可比喻为一个项目的临时负责人,只负责这一个项目的跟进,AM相当于是由某个项目产生的)
作用:1.复制数据的切分;2.为应用程序申请资源并分配给内部的任务;3.任务的监控和容错
4)Container
Container是Yarn的资源抽象,是RM、NM、AM的容器,它封装了某个节点的多维度资源。如内存、CPU、磁盘、网络等。(因为用容器后可以规定用多少资源多少网络,便于分配)
注意 RM和NM是常驻的,AM和Container是非常住的,有job才会出现。
3.MapReduce 架构
MapReduce可以认为是一种算法或者思想。
MapReduce将计算分为两个阶段:Map和Reduce。
(1)Map阶段并行处理输入数据
(2)Reduce阶段对Map结果进行汇总