hadoop集群环境搭建之集群客户端的搭建

本客户端是配置客户端连接 高可用的完全分布式集群

问题的提出:为什么要配置客户端连接集群?

	1.这涉及两个操作HDFS集群的方式集群内操作和集群外操作
	2.其中集群内操作就是在集群内某个节点上操作
	3.集群外操作就是用集群之外的client与nameNode进行通信,完成操作

.

但是其群内操作会造成数据倾斜问题,严重时会导致节点的宕机。

  1. 集群内操作,选择一台DataNode节点作为操作的对象,每次上传文件的时候根据备份机制,上传的文件会本身会上传到自己上,备份到其他的节点。
  2. 久而久之,此节点的磁盘和网络IO负载超过其他的节点,导致它的性能远远低于其他的节点,此时会造成数据倾斜,严重点说,它的负载很大,也就容易宕机,此时集群内还要备份它原来存储的内容,这就造成额外的磁盘和网络IO
  3. 还有是因为计算时间的问题,当发生数据倾斜的时候,因为某节点存放的数据量很大,所有当分布计算任务时,数据量大的节点需要的计算时间就更多,当此节点计算完毕时,这个任务才会执行完毕,所有这样很占用时间。

如何配置集群和户端?

1.把高可用的完全分布式集群配置的hadoop包发送给自己新建的一个客户端虚拟机,必须保证客户机能与集群通信。
2.更改客户机的hosts文件,配置Hadoop环境变量,方便操作集群
3.在客户端正常操作HDFS集群就行了。

.
.
.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值