大数据技术原理------期末复习hadoop

本文详细解读了Hadoop的组件、安装模式(伪分布式启动进程)、高可靠性和扩展性等特性,介绍了Hadoop与Google技术的关系,并列举了其在各大企业的真实应用案例。还涵盖了Hadoop配置细节,如JAVA_HOME和fs.default.name的配置,以及单机模式与伪分布模式的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop
1、Hadoop生态系统的组件
2、Hadoop的安装模式,伪分布式启动后运行的进程有哪些?
(要能够从Master节点、Slave节点角度分别说)
Master节点:NameNode、ResourceManager、SecondaryNameNode
Slave节点:DataNode、NodeManager
重点:课后题
Hadoop的特性
高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux操作系统上、支持多种编程语言
试述hadoop和谷歌的 mapreduce、Hdfs等技术之间的关系
Hadoop的核心是分布式文件系统HDFS和MapReduce
HDFS是谷歌文件系统GFS的开源实现
MapReduces是针对谷歌MapReduce的开源实现。
3、试述Hadoop在各个领域的应用情况。
2007年,雅虎在Sunnyvale总部建立了M4,一个包含了4000个处理器和1.5PB容量的Hadooop集群系统;
Facebook主要将Hadoop平台用于日志处理,推荐系统和数据仓库等方面;
百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析,
在线数据反馈、网页聚类等。
4、配置Hadoop时,Java的路径JAVA_HOME是在哪一个配置文件中进行配置的?
在安装hadoop的文件夹下的“conf”目录下配置
5、所有节点的HDFS路径是通过f.defaut.name来设置的,请问它是在哪个配置文件中设置的?
在安装目录下的HDFS core-site.xml 配置文件中配置。
fs.default.name是文件系统的名字。通常是NameNode的hostname与port,需要在每一个需要访问集群的机器上指定,包括集群中的节点。
6、试列举单机模式和伪分布模式的异同点
相同点:运行机器数相同。单机模式与伪分布式都是在一台单机上运行。
不同点:
①运行模式不同:单机模式是Hadoop的默认模式,即在一台单机上运行,
没有分布式文件系统,直接读写本地操作系统的文件系统。伪分布模式
但用不同的Java进程模仿分布式运行中的各类结点。
②启动进程不同:单机模式下,Hadoop不会启动NameNode,DataNode,JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。伪分布式模式下,Hadoop启动 NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。
③配置文件处理方式不同:单机模式下,不对配置文件进行修改。伪分布式模式下,修改3个配置文件:core-site.xml(Hadoop集群的特性,作用于全部进程及客户端)、hdfs-site.xml(配置HDFS集群的工作属性)、mapred-site.xml(配置MapReduce集群的属性)。
④节点交互不同:单机模式因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。
7、Hadoop伪分布式运行启动后所具有的进程都有哪些?
Hadoop伪分布式运行启动后所具有的进程有:NameNode、DataNode,JobTracker、TaskTracker。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小步调LLY

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值