Apache Hadoop 简介

Apache Hadoop是一个开源软件库,支持大规模数据集的分布式处理。它包括Hadoop分布式文件系统(HDFS)、YARN和MapReduce等核心组件,适用于构建可靠且可扩展的分布式计算系统。

什么是Apache Hadoop?

在Apache Hadoop的项目开发可靠,可扩展,分布式计算开源软件。

Apache Hadoop的软件库是一个框架,允许分布式处理大型数据集在集群计算机使用简单的编程模型。 它被设计为从单一服务器扩展到数千台机器,每个提供本地计算和存储。 而不是依赖于硬件,以提供高可用性,图书馆本身是设计在应用层的故障检测和处理,所以计算机集群上提供高度可用的服务,这可能是容易失败。

该项目包括以下模块:

  • Hadoop Common常用的工具支持其他Hadoop模块。
  • Hadoop分布式文件系统(HDFS™):一个分布式文件系统,提供了高吞吐量的应用程序数据访问。
  • Hadoop YARN 作业调度和集群资源管理的框架。
  • HadoopMapReduce大型数据集的并行处理系统:基于YARN

其他在Apache Hadoop的相关项目包括:

  • Ambari™:一个基于Web的工具,用于配置,管理和监控的Apache Hadoop集群,其中包括支持Hadoop的MapReduce的Hadoop的HDFS,蜂房,HCatalog,HBase的,ZooKeeper的,Oozie的,猪八戒和Sqoop。 安巴里还提供了仪表盘查看集群的健康,如热图,并能够查看的MapReduce,Pig和Hive应用在视觉上非常久远的功能,在一个用户友好的方式来诊断其性能特点。
  • Avro™:数据序列化系统。
  • Cassandra™:可扩展的多主数据库与无单点故障。
  • Chukwa™ :数据采集系统,用于管理大型分布式系统。
  • HBase™ :一个可扩展的分布式数据库,支持结构化数据存储大表。
  • Hive™:数据仓库基础设施,提供数据汇总以及特设的查询。
  • Mahout™:一种可扩展的机器学习和数据挖掘库。
  • Pig™:一个高层次的数据流并行计算语言和执行框架。
  • ZooKeeper™:一个高性能的分布式应用程序协调服务。

下载

  • 1.2.X -目前的稳定版本,1.2版本
  • 2.XX -当前beta版本
  • 2.XX 0.23.X -类似,但缺少NN医管局。
  • 0.22.X -不包括安全
  • 0.20.203.X -遗留下来的稳定版本
  • 0.20.X -旧旧版本

发布可以下载来自Apache的镜像。

现在下载一个发行!

所有最近的版本可供选择。

第三方分销产品,包括Apache Hadoop和派生作品,在Apache许可下。 其中一些上市分派维基页面


 

转载于:https://www.cnblogs.com/toto/p/3325881.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值