HBase是基于hadoop的HDFS(分布式文件系统)的数据库,是apache下的顶级项目,研究大数据HBase很有必要深入了解。遂决心采用Hbase1.24stable版本搭建完全分布式环境。网络上相关的文章比比皆是,但一则版本比较旧,二则往往难以非常完整,因此决定自己写文以记之。本文主要描述HBase安装前的准备工作。
假定,Hadoop的完全分布式环境已经部署成功(稍后我会写关于此部分的文章),环境为:
|----------------------------------------------------------------------------------------------------|
| 133.16.157.35 master namenode |
| 133.16.157.34 slave1 secondaryNameNode, dataNode |
| 133.16.157.36 slave2 dataNode |
|----------------------------------------------------------------------------------------------------|
此后的Hbase 1.2.4的完全分布式部署也安装到此服务器集群上(条件艰苦,请担待)。
闲言少叙,进入正题,HBase分布式部署之前的准备工作主要包括。
0. JDKk环境,JDK1.7.0_80
1. Hadoop完全分布式环境(版本为hadoop 2.7.2稳定版),如前文所述
2. zookeeper-3.4.9的集群环境,因为HBase的分布式环境需要zookeeper协调服务,主要依赖是其选举算法,推选Master .
3. SSH服务,无论是hadoop还是HBase,都需要ssh服务,集群的启动或关闭依赖ssh服务。
4. 每台服务器节点都要修改/etc/hosts文件,每台里都要增加集群里所有节点的服务器ip和机器名(还要额外增加“127.0.0.1 localhost”映射以实现本地回环地址LoopbackIP)
5. 所有服务器之间系统时间必须同步,因此需要安装NTP网络时间协议
6. 修改linux的文件数、进程数限制,修改/etc/security/limits.conf,这一步骤的具体修改入下:
* soft nofile 10240
* hard nofile 10240
* soft noproc 10240
* hard noproc 10240
修改完成后,再输入ulimit -n 10240回车即可生效,可以通过ulimit -a 命令查看资源限制。
7. Hbase的安全配置,这部分从略,因为笔者也没有配置这部分。
完成以上这些步骤,就可以开始着手部署完全分布式的HBase了,请继续关注后继文章!