阿里云上安装hadoop并远程操作

前言: 在公司用到了hadoop,于是想搭建一个hadoop环境.从慕课网上找了门 Hadoop基础知识与电商网站日志数据分析课学了下,这是笔记,供本人复习之用.

目录

第一章 环境介绍

第二章 Hadoop的安装

2.1 jdk安装

2.2 配置ssh登陆

2.2.1 配置让服务器能自己登陆自己

2.2.2 让本地能通过ssh远程连接阿里云服务器

2.3 hadoop的安装

第三章 启动停止hadoop

3.1 格式化文件系统

3.2 启动集群

3.2.1 通过进程开启 

3.2.2 通过网站验证开启

3.3 停止集群

3.4 start与stop与hadoop-daemons.sh的关系 

第四章 HDFS 命令行操作

第五章 hadoop文件的存储机制

第七章 API编程开发HDFS

7.1 配置maven库

7.2 远程操作阿里云中的hadoop

7.2.1 上传文件副本数为3


第一章 环境介绍

服务器版本centos7.3 在阿里云上买的,网络1M,单核,硬盘40GB,内存2G.

Hadoop:hadoop-2.6.0-cdh5.15.1

下载地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz

Hadoop说明:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1/

装hadoop环境需要先配ssh与安装jdk.

jdk:1.8

第二章 Hadoop的安装

2.1 jdk安装

https://blog.youkuaiyun.com/q610376681/article/details/83902538

最终java安装目录

2.2 配置ssh登陆

提醒:因为本人也是第一次配,可能有一些冗余操作,具体还是根据自己情况来,下面步骤只作为参考.

附上几个常用的操作文件命令:

清空文件内容:cat /dev/null > file_name

查找文件内的内容: 在命令行下输入“/关键字”

重启ssh服务:service sshd restart

2.2.1 配置让服务器能自己登陆自己

即ssh localhost能够成功.

可参考:https://blog.youkuaiyun.com/dongdong9223/article/details/81288378

值得注意的是,出现are you sure 的时候要输入yes,不是直接回车.

2.2.2 让本地能通过ssh远程连接阿里云服务器

1. 添加安全组规则:

https://help.aliyun.com/document_detail/25471.html?spm=a2c4g.11186623.2.14.d7837394Hhx40S#concept-sm5-2wz-xdb

2. 利用阿里云生成密钥对:

https://help.aliyun.com/document_detail/51793.html?spm=5176.2020520101.205.d51793.38cb4df5MgXi9M

3. 将密钥对放在ssh中,并在ssh规则中添加对应密钥:

https://blog.youkuaiyun.com/mier9042/article/details/82908774

我自己的环境:

my_computer2.pem阿里云生成的密钥

将密钥添加到ssh中

在~/.ssh/下配置config(这里没尝试之前的github还能否连上,网上说可能要在改点别的配置,因为网上教程一堆,就没写,有问题再搜就行.HostName是ip,Host是我的远程主机设置host名.

 连接,注意连接的时候要加上用户名如root

阿里云Hadoop是一个基于开源Apache Hadoop的大数据处理平台,提供了稳定、可靠、高扩展性的分布式存储和计算能力。为了方便管理和监控Hadoop集群的工作状态,阿里云Hadoop的一些重要服务进行了部署,开放了一些端口供外部访问。 在阿里云环境中访问Hadoop的web界面通常涉及到对`http://<your-cluster-endpoint>:50070`的访问。这个端点指向的是HDFS(分布式文件系统)的Web UI,通过它可以查看HDFS的文件目录结构、资源使用情况等信息。 要远程访问阿里云Hadoop的50070端口,需要满足以下几个条件: 1. **网络可达**:确保您的计算机能够从互联网或内部网络访问到阿里云集群所在的服务器地址。 2. **安全组规则**:阿里云的ECS实例或专有网络VPC环境的安全组应配置允许来自您所在网络的IP访问50070端口。 3. **身份验证**:虽然Hadoop Web UI默认不使用SSL/TLS加密,但出于安全性考虑,您可能需要通过SSH隧道或其他方法建立安全连接,尤其是如果您正在传输敏感数据。 以下是访问HDFS Web UI的一般步骤: 1. 使用SSH连接阿里云ECS实例或通过其他安全的方式来访问集群的服务器。 2. 检查防火墙和安全组设置确认是否允许从您的IP访问50070端口。 3. 打开浏览器输入URL `http://<your-instance-public-ip>:50070` 或者直接在本地主机上,如果已建立SSH隧道的话,可能需要输入类似命令 `ssh -L 80:<cluster-ip>:localhost:50070 your-user@ec2-instance-address` 来创建一个代理转发,然后在浏览器中输入 `http://localhost:80` 访问。 请注意,具体的操作细节可能会根据您使用的阿里云产品的具体版本和配置有所不同。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值