建立在云主机上的完全分布式hadoop集群搭建

本文详述了如何在云主机上利用内网IP搭建一个完全分布式的Hadoop集群,避免了公网IP可能导致的问题。首先介绍了创建云主机的步骤,然后通过远程连接进行环境配置,包括安装JDK、SSH、Rsync和Hadoop。接着配置SSH免密登录和Hadoop环境,最后格式化并启动Hadoop集群。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一开始我用的是公网ip来搭建的集群环境,最后遇到了namenode无法启动的问题:

java.net.BindException: Cannot assign requested address; For more details see:  http://wiki.apache.org/hadoop/BindException

查了很多资料,最后说是ip的问题,可能是因为IP 不在同一区域里,如果namenode的ip是172.19.144.213,其他的应该是172.19.144.XXX,要保证在同一个子网内,而且,hadoop集群也不推荐使用公网ip来搭建集群,

集群节点最好在同一个子网内,要不然配置会麻烦很多。此外,hadoop集群最好部署在内网,因为其在安全性方面并没有做充分的设计,其设计之初就假定集群运行在一个安全可信的环境。

其中具体的我也不太清楚,所以最后我选择使用内网ip来搭建集群环境。

====================================================

接下来就开始正式搭建环境了

第一步 云主机

不是给阿里云打广告,只是说明一个小问题,避免各位踩坑。
在阿里云上的云服务器ECS中点击创建实例即可创建云主机,其中有一个步骤如下:
这里写图片描述
这里设置的密码是登录云主机时的密码,账号默认是root。实例名称就是主机名,也就是linux终端中@符号后面的内容。这里最好设置一下。
只是作为学习的话,不推荐选择高配,太贵了!!!我选择的是最低配的
这里写图片描述
只是作为学习的话,无需太高配啦。
我一共创建了5台云主机。
这里写图片描述
主机基本信息整理如下:
这里写图片描述

第二步 远程连接

(1)5台云主机:主机使用Ubuntu14.04 64位的操作系统
(2)因为本地是windows系统,所以使用putty来进行远程连接(也可以在linux中直接进行远程连接)
putty最新下载地址:https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html
我下载的是
这里写图片描述
下载得到的是一个exe文件,无需安装,放在桌面,双击即可运行。
这里写图片描述
只需要在画红圈的地方输入公网ip即可,然后点击“open”
出现如下提示:(下图是网上找的)

### 下载预配置的Hadoop集群虚拟机 对于希望快速启动并运行Hadoop环境的研究人员或开发者来说,使用预先配置好的Hadoop集群虚拟机是一种高效的方式。这些虚拟机通常已经在内部集成了必要的软件组件,例如Cygwin和SSH服务器(如果是在Windows环境下工作的话),从而简化了安装过程[^1]。 亚马逊AWS Marketplace提供了多种基于Amazon Machine Image (AMI) 的解决方案,其中一些专门针对大数据处理进行了优化。特别是那些支持Hardware Virtual Machine (HVM) 技术的实例类型能够提供更优性能表现,因为它们允许客户充分利用底层物理硬件所提供的加速功能[^2]。 以下是几个可以考虑的选择: #### Oracle VirtualBox 和 VMware 虚拟设备选项 - **Cloudera QuickStart VM**: Cloudera 提供了一个免费版的QuickStart VM,它包含了CDH发行版中的所有核心服务以及附加工具如Impala、Solr等,并且已经被设置成单节点伪分布式模式来模拟多台机器组成的实际生产环境中常见的架构特点。 官方地址: https://www.cloudera.com/downloads/quickstart_vm.html ```bash # 启动Cloudera Manager界面访问命令示例 http://<your_VM_IP>:7180/ ``` - **Apache Bigtop**: 这是由社区维护的一个项目,旨在创建一致性的测试平台用于验证不同版本之间的兼容性问题。通过该项目发布的OVA文件可以直接导入到主流桌面型hypervisor当中去执行实验性质的任务负载而不必担心污染宿主机操作系统状态。 GitHub仓库链接: https://github.com/apache/bigtop/releases/latest #### 基于云的服务提供商方案 除了本地部署外还可以利用公共云计算资源按需获取弹性计算能力的同时享受即开即用的好处: - **AWS EMR(Hadoop)** : Amazon Elastic MapReduce 是一项完全托管的服务让您可以轻松分析海量数据而无需操心复杂的基础设施管理工作项比如容量规划或者安全加固等方面的内容. 创建流程指引文档位置:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-get-started.html ```json { "Name": "MyFirstEMRCluster", "ReleaseLabel":"emr-6.x.x", "Applications":[{"Name":"Hive"},{"Name":"Pig"}], ... } ``` 请注意,在选择具体产品之前应当仔细阅读其许可协议条款以确认是否满足个人用途需求同时也建议定期备份重要资料以防意外丢失情况发生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值