1.Hadoop介绍

最新推荐文章于 2024-04-08 11:07:08 发布

专的小新

最新推荐文章于 2024-04-08 11:07:08 发布

阅读量423

点赞数 4

文章标签： hadoop 大数据分布式

本文链接：https://blog.youkuaiyun.com/2301_80749438/article/details/136767184

版权

本文介绍了Hadoop在大数据领域的关键角色，包括其四大特征、数据类型、HDFS分布式文件系统、MapReduce计算框架以及YARN资源管理器。还概述了Hadoop生态系统中的组件和广泛应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop的介绍
大数据/四大特征：大量(voume)、多样（varity）、高速（velocity）、价值（value）。
大数据的3种数据类型：结构化数据、半结构话数据、非结构话数据。
大数据具有海量的数据规模、快速的数据流转、多样的数据数据类型以及价值密度四大特征。
Hadoop由Apache软件基金会开发，是一个开源的、可靠的、可扩展的、用于分布式局算计的分布式系统基础框架。
Hadoop是分布式文件系统（HDFS），HDPS又是拥有可扩展、高容错、高性能的分布式文件系统，负责数据的分布式存储和备份，文件些人后只能读取，不能修补。
MapReduce是分布式计算机框架，包含Map(映射)和Reduce(归约)两个阶段。
Hadoop是Apache软件基金会的Lucence项目创建人：道格-卡延,Lucence是一个应用广泛的文本搜索系统库。
Hadoop特点：高可靠性、高扩展性、高效性、高容错性、低成本、可构建在廉价机器上、Hadoop基本框架用java语言编写。
Hadoop的核心组件：HDFS、MapReduce、YARN
HDFS主要包括了：
一、HDFS结构：分布式文件系统）用于存储；
一个数据块的存储容量为（128MB）
1.NameNode:用于存储元数据以及处理客户端（Client）发出的请求。
2.Secondary NameNode:用于备份NameNode的数据。
3.DataNata:是真正存储数据的地方，在DataNode中，文件以数据块进行存储。
二、分布式原理
1.HDFS并不是一个单机文件系统，而是分布在多个集群节点上的文件系统。
2当存储文件时，文件的数据分布在多个节点上。
3.数据从多个节点读取。
三、HDFS宕机处理
1.副本备份、2.副本存放、3.宕机处理.
HDFS的特点：高容错性、适合大规模数据处理、流式数据访问。
HDFS的缺点：不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。MapReduce(分布式计算机框架)：MapReduce是一个分布式运算程序的编程框架。
MapReduce简介：MapReduce是Haoop的核心计算框架，是用于大规模数据集（大于1T）并行运算的编程框架。
MapReduce工作原理：
1.数据的输入与分片阶段。
2.Map阶段。
3.Shuffle/Sort阶段。排序工作发生在Shuffle.
4.Reduce阶段。
5.数据输出阶段。
YARN（集群资源管理器）
YARN是Hadoop的资源管理器，提交应用至YARN上执行可以提高资源在集群种得利用率，提高执行速率。
YARM简介：YARM的目标是适得Hadoop数据处理能力超越MapReduce.
YARM基本结构：RM、NM、AM、Client Allication(客户端应用程序)
1.ResourceManager(简介RM):一个全局的资源管理器，负责整个系统的资源管理和分配，主要的两个组件构成，即调度器（Schedjuler）应用程序管理器（Applications Manager，ASN）。
2.NodeManager：每个节点上的资源和任务管理器。
Hadoop生态系统中常用的组件如下：
1.HBase
2.Hive
3.Pig
4.Sqoop
5.Flume
6.Oozie
7.ZooKeeper
8.Mahout
Hadoop的应用场景：
1.在线旅游
2.移动数据
3.电子商务
4.能源开采
5.图像处理
6.诈骗检测
7.IT安全
8.医疗保健
9.搜索引擎
10.社交平台