Hadoop概述

最新推荐文章于 2024-04-25 22:38:27 发布

原创最新推荐文章于 2024-04-25 22:38:27 发布 · 249 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop系列专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨Hadoop及其在大数据技术生态系统中的角色，包括数据存储、计算与资源调度的关键组件，如HDFS、MapReduce及YARN。同时，文章对比了Hadoop1.x与Hadoop2.x的主要区别，概述了大数据部门的业务流程，以及从数据来源到业务应用的完整技术生态体系。

大数据(bigdata)
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式
才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决，海量数据的存储和分析计算问题。

1.数据存储单位
bit Byte KB MB GB TB PB EB ZB YB BB NB DB

目前大部分公司数据存储量 TB PB EB

1Byte = 8bit
1024Byte = 1KB
1024K = 1MB
1024M = 1G
1024G = 1T
1024T = 1P

2.存储
分布式存储
3.计算
分布式计算

分布式：
由分布在不同主机上的进程协同在一起，才能构成整个应用。

Hadoop简介
Apache开源软件
创始人：Doug Cutting
Hadoop名称来源于Doug Cutting 儿子的玩具大象

Hadoop是有Apache基金会所开发的分布式系统基础架构。

主要解决海量数据的存储和海量数据的分析计算问题。

广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

GFS --> HDFS
MapReduce --> MapReduce
BigTable --> HBase

Hadoop三大发行版本：
Apache 版本最原始（最基础）的版本，对于入门学习较好；
Cloudera 在大型互联网企业中用的较多；
Hortonworks 文档较好。

Hadoop的优势：
1.高可靠性：维护多个工作数据副本，所以即使Hadoop某个计算元素或存储出现故障也不会导致数据的丢失。
2.高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点；
3.高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度；
4.高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

Hadoop组成
1.HDFS 高可靠。高吞吐量的分布式文件系统
NameNode 名称节点 NN 存储文件的元数据（文件名、文件目录结构、文件属性），以及每个文件的块列表和块所在的DataNode等。

DataNode 数据节点 DN
SecondaryNameNode 辅助名称节点 2NN

2.MapReduce 分布式的离线并行计算框架
MR 映射和简化，编程模型
基于yarn系统的对大数据集进行并行计算
Map 阶段并行处理输入数据
Reduce 阶段对Map结果进行汇总

3.YARN 作业调度与集群资源管理的框架
ResourceManager 资源管理器 RM 处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度
NodeManager 节点管理器 NM 单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令。
ApplicationMaster 数据切分、为应用程序申请资源，并分配给内部任务、监控任务与容错。
Container 对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关信息。

4. Hadoop Common 支持其他模块的工具模块。
MapReduct 计算
Yarn 资源调度
HDFS 数据存储

大数据技术生态体系

业务模型层业务模型数据可视化业务应用

【Zookeeper 数据平台配置和调度】

任务调度层 Oozie任务调度 azkaban 任务调度

           Spark Streaming 实时计算 Storm 实时计算
       Hive数据查询 MaHout数据挖掘 Spark Mlib 数据挖掘 Spark R 数据分析 Spark Sql数据查询
数据计算层 --   MapReduce离线计算   Spark Core 内存计算

资源管理层 -- YARN 资源管理

数据存储层 -- HDFS 文件存储 HBase 非关系型数据库

数据传输层 -- Sqoop数据传递 Flume日志收集 kafka数据队列

数据来源层 -- 数据库（结构化数据）文件日志（半结构化数据）视频、ppt等（非结构化数据）

大数据部门业务流程分析

产品人员提需求（统计总用户数，日活跃用户数，回流用户数）——> 数据部门搭建数据平台、分析数据指标——> 数据可视化（报表展示，邮件发送，大屏幕展示等）

Hadoop1.x和Hadoop2.x区别

Hadoop1.x组成

MapReduce（计算+资源调度）

HDFS（数据存储）

Common（辅助工具）

Hadoop2.x组成