Ubuntu上安装Hadoop集群

戳蓝字“优快云云计算”关注我们哦!


前面我们介绍了在Ubuntu上安装Hadoop单机版。但是我们知道,Hadoop在实际工作中都是以集群的形式存在的,毕竟需要处理大量的数据,单机的处理速度显然不能满足。所以这篇文章我们就来介绍一下如何在Ubuntu上搭建Hadoop集群。


准备阶段


640?wx_fmt=png


三台在同一局域网内的Linux机器或者虚拟机。

配置好Host文件,让三台机器可以通过主机名进行访问。

三台机器上都安装了JDK。

在其中一台上安装好Hadoop,安装方法可以参考前面的文章。

配置SSH免密登录


你可能很奇怪我要搭建的是Hadoop集群,为啥需要配置SSH免密登录呢。有两点原因:


在启动集群上所有的节点的时候无需重复输入密码。

我们在搭建集群的时候需要将Hadoop的文件夹复制到其他机器上,如果是一两台的话copy起来很快,

但是如果是几百台呢,所以这个时候如果机器之间可以免密登录的话我们可以很方便的使用脚本完成整个工作。

具体的配置方式可以看下我之前的文章,SSH免密登录(内含批量配置脚本)


修改单机版的配置文件


1、修改core-site.xml,只需要修改fs.defaultFS配置项即可,hadoop.tmp.dir不需要修改。


640?wx_fmt=png


2、修改``hdfs-site.xml`,主要是修改HDFS存储文件副本的数量,之前单机版的时候设置为1,现在改为2(这个配置项默认的配置为2)。


640?wx_fmt=png


安装包复制,并设置环境变量


其实在我们搭建好一台机器的Hadoop环境后只需要下面几步就可以完成集群环境的搭建了:


将Hadoop的安装目录拷贝到其他机器上。

在其他机器上配置Hadoop环境变量。

执行source /etc/profile命令,使得环境变量生效。

修改namenode的slave文件,指定datanode是哪几台机器

前面两步我写好了脚本,直接执行一下就可以了。第3步中说的slave文件在hadoop的安装目录下的etc/hadoop/slave,我这里用的test01和test02两台机器做datanode。


640?wx_fmt=png

脚本地址


附上脚本使用说明


640?wx_fmt=png


需要保证脚本文件夹中的两个脚本文件在同一目录下。

如果Hadoop的安装目录不为/root/apps/hadoop/hadoop-2.8.5,则需要修改脚本中hadoop的安装位置(两个脚本中都需要修改)。

修改脚本中机器名称,SERVERS变量。

环境启动


1、在namenode机器上执行下面的命令


640?wx_fmt=png


2、在浏览器中访问`http://{机器IP}:50070,查看到如下结果即代表成功。


640?wx_fmt=png


--------------------- 


作者:名字想好没。 

来源:优快云 

原文:

https://blog.youkuaiyun.com/sinat_27629035/article/details/85561666 

版权声明:本文为博主原创文章,转载请附上博文链接!


推荐阅读


1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


2.征稿:

投稿邮箱:liudan@youkuaiyun.com;微信号:color_ld。请备注投稿+姓名+公司职位。

640?wx_fmt=png 喜欢就点击“好看”吧!
Ubuntu上搭建Hadoop集群通常涉及以下几个步骤: 1. **安装基础工具**: - 更新系统:`sudo apt-get update && sudo apt-get upgrade` - 安装SSH无密码登录:`sudo apt-get install openssh-server` 2. **安装Hadoop组件**: - 添加Hadoop官方存储库:`echo "deb http://mirrors.aliyun.com/hadoop/debian / stable" | sudo tee -a /etc/apt/sources.list.d/hadoop.list` - 密钥验证:`wget -O- https://mirrors.aliyun.com/hadoop/debian/GPGKEY | sudo apt-key add -` - 更新软件包列表并安装Hadoop:`sudo apt-get update && sudo apt-get install hadoop* 注意这里的星号(*)代表你需要选择安装Hadoop的哪些组件,如`hadoop-hdfs`, `hadoop-common`, `hadoop-yarn-client`等。 3. **配置Hadoop**: - 配置核心文件(例如`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`):通常位于 `/etc/hadoop/conf` 目录下,需要根据网络、存储和其他环境设置调整。 - 启动守护进程:`sudo service hadoop-daemon start namenode` 和 `datanode`,然后 `yarn-daemon start resourcemanager` 和 `nodemanager`。 4. **验证集群**: - 使用命令行工具如 `hdfs dfsadmin -report` 和 `jps` 检查是否正常启动了所有服务。 5. **主节点设置**: - 主节点(NameNode)的IP地址需要在每个DataNode的配置中指定。 6. **安全模式**(仅当有大量数据时): - 首次启动HDFS时,会进入安全模式,此时需要等待数据块复制完成。可以使用 `hdfs dfsadmin -safemode wait` 来检查。 7. **监控和管理**: - 使用`nagios`或`ganglia`等工具进行性能监控,`hadoop`本身也提供了一些日志和命令用于管理和维护。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值