hadoop介绍
apache hadoop软件是一个使用简单编程模型跨计算机群分布式处理大型数据集的框架。能够从单个服务器扩展到数千台机器,每一台机器都可以提供本地计算和存储。hadoop本身不是依靠硬件来提供高可用,而是设计用于检测和处理应用层的故障,因此在计算机集群上提供高可用服务每一台机器都容易出现故障。
apache hadoop 模块
1、hadoop common 支持其他 Hadoop 模块的通用实用程序。
2、Hadoop 分布式文件系统 (HDFS™) 一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
3、Hadoop YARN:作业调度和集群资源管理的框架。
4、Hadoop MapReduce**:基于 YARN 的系统,用于并行处理大型数据集。
apache hadoop 相关的项目包括
Ambari:一个基于 Web 的工具,用于配置、管理和监控 Apache Hadoop 集群,包括对 Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig 和 Sqoop 的支持。Ambari 还提供了一个仪表板,用于查看集群健康状况,例如热图,并能够直观地查看MapReduce、Pig 和 Hive 应用程序以及以用户友好的方式诊断其性能特征的功能。
1、Avro:数据序列化系统。
2、Cassandra:一个可扩展的多主数据库,没有单点故障。
3、Chukwa:用于管理大型分布式系统的数据收集系统。
4、HBase: 一个可扩展的分布式数据库,支持大型表的结构化数据存储。
5、HIve: 提供数据汇总和即席查询的数据仓库基础设施。
6、Mahout: 可扩展的机器学习和数据挖掘库。
7、Ozone:Hadoop 的可扩展、冗余和分布式对象存储。
8、Pig:用于并行计算的高级数据流语言和执行框架。
9、Spark:用于 Hadoop 数据的快速通用计算引擎。Spark 提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括 ETL、机器学习、流处理和图形计算。
10、Submarine:一个统一的 AI 平台,允许工程师和数据科学家在分布式集群中运行机器学习和深度学习工作负载。
11、Tez :基于 Hadoop YARN 构建的通用数据流编程框架,它提供了一个强大而灵活的引擎来执行任意 DAG 任务来处理批处理和交互式用例的数据。Tez 正在被 Hadoop 生态系统中的 Hive™、Pig™ 和其他框架以及其他商业软件(例如 ETL 工具)采用,以取代 Hadoop™ MapReduce 作为底层执行引擎。
12、Zookeeper:分布式应用程序的高性能协调服务。
apache hadoop版本功能介绍
1.X,2.X区别:
HDFS:
1:Hadoop2.0新增了HDFS HA机制,HA增加了standbynamenode进行热备份,解决了1.0的单点故障问题。
2:Hadoop2.0新增了HDFS federation,解决了HDFS水平可扩展能力。
允许有多个namenode独立运行组成联邦。每个datanode向所有name进行注册。
每个namenode维护一个命名空间卷(互相独立)上层通过一个挂载表组织来访问数据。
命名空间卷:包括池块和命名空间元数据
块池:逻辑概念,该命名空间文件的所有块;可能在不同机器上。
命名空间元数据: 命名空间元数据
mapreduce:
1、2.0相比于1.0 新增了YARN框架,Mapreduce的运行环境发生了变化
2、在1.0中:由一个JobTracker和若干个TaskTracker两类服务组成,其中JobTracker负责资源管理和所有作业的控制,TaskTracker负责接收来自JobTracker的命令并执行它。所以MapReduce即是任务调度框架又是计算框架,1.0中会出现JobTracker大包大揽任务过重,而且存在单点故障问题,并且容易出现OOM问题,资源分配不合理等问题
3、在2.0中:MASTER端由ResourceManager进行资源管理调度,有ApplicationMaster进行任务管理和任务监控。SLAVE端由NodeManager替代TaskTracker进行具体任务的执行,所以MapReduce2.0只是一个计算框架,具体资源调度全部交给Yarn框架。
2.X和3.X最主要区别
1、Java运行环境升级为1.8;
2、HDFS支持纠删码:
纠删码相比于副本机制节省了一半以上的存储空间,普通副本机制需要3倍存储空间而这种机制只需1.4倍即可。
3、YARN时间线服务
4、支持多余2个以上的NameNodes
3.0支持单active namenode+多standby namenode部署方式进一步提升了可用性。
5、MapReduce本地优化,性能提升了30%。
最后相比于1.0和2.0,3.0在实际使用过程中比较不稳定
hadoop下载地址:
https://dlcdn.apache.org/hadoop/common/
ahache技术栈文件下载
https://dlcdn.apache.org/