IT Ambari:足迹第四十八步:hadoop的一种管理平台

本文探讨了Hadoop和Spark在大数据处理领域的核心作用,包括Hadoop的MapReduce、HDFS和YARN组件,以及Spark如何通过集成HDFS提供更高效的数据处理能力。同时,介绍了使用Ambari和Manger等工具进行大数据集群的管理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.Hadoop部署:两种方式

1.1大数据集群手工管理方式(Apache hadoop)
1.2大数据集群工具管理方式(Manger 和Ambari);

3.2.1 Hortonworks公司的Ambari + HDP (开源)
3.2.2 Cloudera公司的 Manger + CDH(不开源,收费)

1.3我经历过的安装Hadoop用的Ambari;底层HDFS占用了1+n台服务器,1台NameNode和N台DataNode;Hive搭配Presto处理数据工厂;日志收集用的kafka,日志放在ElasticSearch服务上代替把日志放数据库里;文件上传分两种,方案一是Object Storage存储不规则数据,方案二采用了流管理服务Datahub搭配DataX管理异构的数据源;

2.狭义Hadoop:核心就是MapReduce+HDFS+YARN;Hadoop开发所用语言是java;

2.1)MapReduce:大数据表查询,利用JAVA语言中“Map(映射)”和“Reduce(归约)”,来代替SQL中的分组函数和表联结;Hive对MapReduce进行了封装。
2.2)HDFS:分布式存储,多服务器与分布式,文件系统

3.Spark:搭配上HDFS可以替换Hadoop;Spark语言是jvm;可以用java,Scala或Python

3.1Hadoop可以独立完成数据的存储和处理工作,因为其除了提供HDFS分布式数据存储功能,还提供MapReduce数据处理功能。
3.2Spark没有提供文件管理系统,它必须和其他的分布式文件系统进行集成才能运作。可以选择Hadoop的HDFS,也可以选择其他平台。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值