IT Ambari：足迹第四十八步：hadoop的一种管理平台

Hadoop与Spark在大数据处理中的应用

最新推荐文章于 2024-07-09 16:51:04 发布

原创最新推荐文章于 2024-07-09 16:51:04 发布 · 293 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

JAVA日记：JAVA程序员的真实就业经历专栏收录该内容

101 篇文章

订阅专栏

本文探讨了Hadoop和Spark在大数据处理领域的核心作用，包括Hadoop的MapReduce、HDFS和YARN组件，以及Spark如何通过集成HDFS提供更高效的数据处理能力。同时，介绍了使用Ambari和Manger等工具进行大数据集群的管理。

Ambari

1.Hadoop部署：两种方式

1.1大数据集群手工管理方式（Apache hadoop）

1.2大数据集群工具管理方式（Manger 和Ambari）；

3.2.1 Hortonworks公司的Ambari + HDP （开源）
3.2.2 Cloudera公司的 Manger + CDH（不开源，收费）

1.3我经历过的安装Hadoop用的Ambari；底层HDFS占用了1+n台服务器，1台NameNode和N台DataNode；Hive搭配Presto处理数据工厂；日志收集用的kafka，日志放在ElasticSearch服务上代替把日志放数据库里；文件上传分两种，方案一是Object Storage存储不规则数据，方案二采用了流管理服务Datahub搭配DataX管理异构的数据源；

2.狭义Hadoop：核心就是MapReduce+HDFS+YARN；Hadoop开发所用语言是java；

2.1)MapReduce：大数据表查询,利用JAVA语言中“Map(映射)”和“Reduce(归约)”，来代替SQL中的分组函数和表联结；Hive对MapReduce进行了封装。

2.2)HDFS：分布式存储，多服务器与分布式，文件系统

3.Spark:搭配上HDFS可以替换Hadoop；Spark语言是jvm；可以用java,Scala或Python

3.1Hadoop可以独立完成数据的存储和处理工作，因为其除了提供HDFS分布式数据存储功能，还提供MapReduce数据处理功能。

3.2Spark没有提供文件管理系统，它必须和其他的分布式文件系统进行集成才能运作。可以选择Hadoop的HDFS,也可以选择其他平台。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。