Hadoop概述

最新推荐文章于 2024-03-15 19:45:48 发布

原创最新推荐文章于 2024-03-15 19:45:48 发布 · 285 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据

大数据专栏收录该内容

6 篇文章

订阅专栏

Hadoop项目主要包括4个部分：
1、Hadoop Common:支撑其他模块
2、Hadoop Distributed File System:分布式系统对应用提供高吞吐量的访问。
3、Hadoop Yarn：资源管理和任务调度的一个框架。
4、Hadoop Mapreduce：能够并行处理大数据集的Yarn基本系统。

Hadoop相关项目：
1、Arvo:是一个比较流行的数据序列化系统，可以提供丰富的结构类型，快速可压缩的二进制数据格式，存储持久化数据，支持远程过程调用协议（RPC）
2、Hbase:是一个分布式的，面向列的开源数据库，可以称为Hadoop的标准数据库，也是一款比较流行的NoSQL数据库，主要解决非关系型数据存储问题。
3、Hive:本身是建立在Hadoop体系结构上的数据仓库基础构架，可以将结构化的数据文件映射为一张数据库表，并提供完整的查询(QL)语句，把QL语句转换成MapReduce程序提交给Hadoop集群完成相关任务。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析并存储在Hadoop中的大规模数据处理的机制
4、Pig:是一个基于Hadoop的大规模数据分析平台，它提供的SQL-Like语言叫做Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的Mapreduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
5、Spark:是一个快速和通用的集群计算系统。它还支持一组丰富的高级工具，包括Spark SQL,SQL和结构化数据处理，机器学习，图形处理，Spark流。
5、Zookeeper:是一个能够高效开发和维护分布式的开放源码的应用协调服务，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括维护配置信息、名字服务、分布式同步、组服务等。

Hadoop体系架构：HDFS体系结构和MapReduce体系结构

HDFS体系架构：采用主从结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作。集群中的DataNode管理存储的数据。当文件进行存储时，文件被分割成若干个数据库，并且这些数据库会被存放在集群中的各个DataNode节点上。NameNode执行文件系统的命名空间操作，比如打开、关闭、重命名文件或目录等，负责数据块到具体的DataNode的映射。DataNode负责处理文件系统客户端的文件读写请求，并在NameNode的统一调度下进行数据块的创建、删除和复制工作。一个典型的部署场景是集群中的一台机器运行一个NameNode实例，其他机器分别运行一个DataNode实例。NameNode是所有HDFS元数据的管理者，用户数据永远不会存储到NameNode上。

MapReduce体系结构
早期的MapReduce框架中，主要是由一个单独运行在主节点上的JobTracker进场和运行在每个集群从节点上的TaskTracker进程共同组成的。主节点JobTracker负责调度构成一个作业的所有任务，这些任务分布在不同的从节点TaskTracker上。主节点通过心跳机制监控它们的执行情况，并且重新执行之前失败的任务；从节点仅负责由主节点指派的任务。当一个Job被Client提交时候，JobTracker接收到提交作业和配置信息后，就会将配置信息分发给从节点，同时调度任务并监控TaskTracker的执行。（Mapreduce v1）