大数据hADOOP

最新推荐文章于 2024-09-23 22:04:52 发布

原创最新推荐文章于 2024-09-23 22:04:52 发布 · 2.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #session #cookie

笔记专栏收录该内容

2 篇文章

订阅专栏

1、简要描述如何安装配置一个apache开源版hadoop，描述即可，列出步骤更好

–解压hadoop包，到指定安装文件夹

    --配置linux基本网络环境、jdk环境、防火墙环境

    --修改主机名，方便后面UI的访问

    --修改hadoop/etc/hadoop/conf下的配置文件，根据部署的模式和需要进行配置

    --格式化namenode，对数据缓存的的路径进行格式化

    --启动hadoop进程

2、请列出正常工作的hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？

    --namenode =>HDFS的守护进程，负责维护整个文件系统，存储着整个文件系统的元数据信息，有image+edit log namenode不会持久化存储这些数据，而是在启动时重建这些数据。

    --datanode  =>是具体文件系统的工作节点，当我们需要某个数据，namenode告诉我们去哪里找，就直接和那个DataNode对应的服务器的后台进程进行通信，由DataNode进行数据的检索，然后进行具体的读/写操作

    --secondarynamenode  =>一个冗余的守护进程，相当于一个namenode的元数据的备份机制，定期的更新，和namenode进行通信，将namenode上的image和edits进行合并，可以作为namenode的备份使用

    --resourcemanager =>是yarn平台的守护进程，负责所有资源的分配与调度，client的请求由此负责，监控nodemanager

    --nodemanager  => 是单个节点的资源管理，执行来自resourcemanager的具体任务和命令

————————————————
版权声明：本文为优快云博主「maketubu7」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.youkuaiyun.com/maketubu7/article/details/80784680

3、启动hadoop报如下错误，该如何解决？

–1.error org.apache.hadoop.hdfs.server.namenode.NameNode

    --找不到主类，应该是配置文件的hadoop的安装位置配置错误，对hadoop-env.sh文件进行检查修改

--2.org.apache.hadoop.hdfs.server.common.inconsistentFSStateException

    --这个是存储目录不存在，或者被删除，对namenode进行格式化，或重新格式化，对tmp.dir进行自己的设置

--3.Directory /tmp/hadoop-root/dfs/name is in an inconsistent 

    --这个和上面一样的，重新设置core-site.xml中hadoop.tmp.dir的值，对namenode进行格式化，

--4.state storage direction does not exist or is not accessible?

    --之前是默认的tmp目录，每次重启都会清除这个数据，所以找不到整个文件系统的信息，重新设置core-site.xml中hadoop.tmp.dir的值，对namenode进行格式化，

4、请列出你所知道的hadoop调度器，并简要说明其工作方法？

--1.先进先出调度器（FIFO）

--Hadoop 中默认的调度器，也是一种批处理调度器。它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业

–2.容量调度器（Capacity Scheduler)

–支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择一个合适队列：计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值，选择一个该比值最小的队列；然后按以下策略选择该队列中一个作业：按照作业优先级和提交时间顺序选择，同时考虑用户资源量限制和内存限制

–3.公平调度器（Fair Scheduler）

–公平调度是一种赋予作业（job）资源的方法，它的目的是让所有的作业随着时间的推移，都能平均的获取等同的共享资源。所有的 job 具有相同的资源,当单独一个作业在运行时，它将使用整个集群。当有其它作业被提交上来时，系统会将任务（task）空闲资源（container）赋给这些新的作业，以使得每一个作业都大概获取到等量的CPU时间。与Hadoop默认调度器维护一个作业队列不同，这个特性让小作业在合理的时间内完成的同时又不"饿"到消耗较长时间的大作业。公平调度可以和作业优先权搭配使用——优先权像权重一样用作为决定每个作业所能获取的整体计算时间的比例。同计算能力调度器类似，支持多队列多用户，每个队列中的资源量可以配置，同一队列中的作业公平共享队列中所有资源。
————————————————
版权声明：本文为优快云博主「maketubu7」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.youkuaiyun.com/maketubu7/article/details/80784680

5、当前日志采样格式为如下，请编写MapReduce计算第四列每个元素出现的个数

a,b,c,d

a,s,d,f

d,f,g,c 就如此格式，

6、hive有哪些方式保存元数据，各有哪些特点？

--1.内嵌Derby数据库存储

    --这个是hive默认自带的内嵌数据库，用来储存元数据，但这个在配置了hiveserver2和metastore服务后，不支持多个用户同时登录，不方便对数据库的安全访问

--2.multi user mode

    --在自己本地配一个，mysql的数据库用作，hive的元数据的存储数据库，这个需要要自己本地搭建一个mysql数据库，通过配置文件创建一个，hive自己的元数据库，也是我们学习一般会用的方式，配置一般如下