HA HBase 完全分布式搭建

Apache HBase – Apache HBase Downloads 

首先需要从官网中下载HBase-bin.tar.gz

此次搭建过程中我选择将hadoop102以及hadoop103作为HMaster,而三台主机都作为HRegionserver

以下是regionservers的文件内容 

hadoop102
hadoop103
hadoop104

以下是hbase-env.sh内容 

export HBASE_MANAGES_ZK=false

以下是hbase-site.xml内容 

<configuration>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>true</value>
  </property>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://mycluster/hbase</value>
  </property>
  <property>
    <name>hbase.unsafe.stream.capability.enforce</name>
    <value>false</value>
  </property>
  <property>
    <name>hbase.zookeeper.quorum</name>
    <value>hadoop102,hadoop103,hadoop104</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/opt/module/zookeeper-3.5.9/zkData</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.clientPort</name>
    <value>2181</value>
  </property>
</configuration>

以下是自定义的启动HBase集群Shell脚本,需要在想要启动HMaster的节点服务器下执行start-hbase.sh脚本

#!/bin/bash

for host in hadoop102 hadoop103
do
        echo =========== $host ============
        ssh $host /opt/module/hbase-2.5.0/bin/start-hbase.sh
done

以下是自定义的关闭HBase集群Shell脚本,只需要执行一台HMaster节点服务器下的stop-hbase.sh即可 

#!/bin/bash

ssh hadoop102 /opt/module/hbase-2.5.0/bin/stop-hbase.sh

首先需要启动HA集群,再通过start-hbase.sh启动HBase集群

参考文章:

基于Hadoop HA集群部署HBase HA集群(详细版)_yield-bytes的博客-优快云博客

<think>好的,用户正在寻找Hadoop完全分布式模式下的实战项目或案例教程。首先,我需要整理已有的参考资料,看看有没有相关的内容。根据提供的引用,用户已经了解伪分布式模式的配置和一些基础操作,比如使用xsync脚本分发配置[^2][^5],启动NameNode[^3],以及设置JAVA_HOME[^4]。现在用户希望转向完全分布式环境,需要实际项目案例来应用这些知识。 接下来,我需要考虑用户可能的实际需求。完全分布式模式涉及多台机器,所以案例应该涵盖集群管理、数据分布、任务调度等。常见的Hadoop实战项目包括日志分析、推荐系统、数据清洗等。同时,用户可能需要具体的步骤指导和教程链接,因此需要推荐一些经典案例,比如WordCount的扩展、网站流量分析等。 还要注意用户提到的引用中有关于分发脚本xsync和配置的内容[^5],所以在案例中应该强调集群配置和自动化脚本的使用。此外,引用[1]提到伪分布式适合学习和开发,用户现在需要过渡到完全分布式,所以案例应帮助用户理解如何扩展应用到多节点环境。 可能需要推荐的案例包括使用MapReduce处理大数据集、HDFS的存储优化、YARN的资源管理等。此外,结合生态系统的其他工具如Hive、HBase、Spark的案例也会有用,但需确保以Hadoop为核心。 还要检查是否有遗漏点,比如用户可能需要从伪分布式迁移到完全分布式的步骤,或者常见问题解决方法。因此,在推荐案例时,应选择那些详细讲解集群设置、问题排查和性能优化的教程。 最后,需要确保推荐的资源是中文的,并且容易获取,比如GitHub项目、博客教程或在线课程。可能需要提及具体的书籍或网站,如《Hadoop权威指南》或黑马程序员的相关课程,帮助用户深入实践。</think>### Hadoop完全分布式实战项目及案例教程推荐 #### 一、基础实战案例 1. **多节点WordCount扩展版** - 在经典WordCount基础上增加数据分片策略优化 - 实现跨节点数据倾斜处理(如Combiner优化) - 包含集群性能对比实验(3节点 vs 5节点) - 参考教程:[《Hadoop完全分布式词频统计进阶》](示例链接) 2. **网站日志分析系统** - 使用Flume进行多节点日志采集 - HDFS存储日志数据(TB级模拟) - 开发MapReduce清洗模块 - 生成用户行为热力图报表 - 案例代码:[GitHub示例仓库](示例链接) #### 二、企业级项目 3. **电商用户画像构建** - 分布式ETL流程设计 - 用户行为特征提取(MapReduce + Hive) - 基于YARN的资源调度优化 - 包含NameNode HA配置实战[^3] 4. **气象数据分析平台** - 多数据源聚合(气象站数据 + 卫星数据) - 分布式温度预测模型 - 使用ZooKeeper实现集群协调 - 项目地址:[气象大数据GitHub项目](示例链接) #### 三、配套工具链实践 5. **自动化部署系统** - 增强版xsync脚本开发(支持动态节点检测)[^2] - Ansible集成部署方案 - 集群监控看板搭建(Ganglia + Grafana) 6. **跨集群数据同步** - DistCp工具深度使用 - 带宽限制策略配置 - 断点续传机制实现 #### 四、推荐学习资源 1. **《Hadoop权威指南(第4版)》** - 第4章 完全分布式集群搭建详解 - 第7章 YARN资源管理实战 2. **实验楼《Hadoop完全分布式项目实战》** - 包含5个渐进式实验项目 - 提供在线集群环境 3. **腾讯云大学Hadoop课程** - 企业级安全方案配置 - Kerberos认证集成实战 4. **GitHub trending项目** - hadoop-log-analysis(星标2.3k) - distributed-recommend-system(星标1.8k)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值