Hadoop、HBase配置Ganglia指南(metrics1)

Server端:
yum install rrdtool ganglia ganglia-gmetad ganglia-gmond ganglia-web httpd php
Client端:
yum install ganglia-gmond
创建RRD目录
mkdir -p /var/lib/ganglia/rrds
chown ganglia:ganglia /var/lib/ganglia/rrds
编辑/etc/ganglia/gmond.conf
cluster {
  name = " DFS"
  owner = "unspecified"
  latlong = "unspecified"
  url = "unspecified"
}
udp_send_channel {
  #bind_hostname = yes # Highly recommended, soon to be default.
                       # This option tells gmond to use a source address
                       # that resolves to the machine's hostname. Without
                       # this, the metrics may appear to come from any
                       # interface and the DNS names associated with
                       # those IPs will be used to create the RRDs.
  mcast_join = master.hadoop.test
  port = 8649
  ttl = 1
}
/* You can specify as many udp_recv_channels as you like as well. */
udp_recv_channel {
  port = 8649
  bind = master.hadoop.test
}
/* You can specify as many tcp_accept_channels as you like to share
   an xml description of the state of the cluster */
tcp_accept_channel {
  bind = master.hadoop.test
  port = 8649
}
编辑/etc/ganglia/gmetad.conf
data_source " DFS" master.hadoop.test:8649

安装ganglia-web
cd /var/www/html
tar zxvf ganglia-web-3.5.7.tar.gz
mv ganglia-web-3.5.7 ganglia
修改Apache配置
vim /etc/httpd/conf.d/ganglia.conf
<Location /ganglia>
    Order deny,allow
    Allow from all
</Location>
# 开机运行采集进程
chkconfig --levels 235 gmond on
# 开机运行数据存储进程
chkconfig --levels 235 gmetad on
# 开机运行apache服务
chkconfig --levels 235 httpd on
启动服务
service gmond start
service gmetad start
service httpd restart

修改hadoop配置:
vim $HADOOP_HOME/conf/hadoop-metrics.properties
# Configuration of the "dfs" context for ganglia
dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
dfs.period=10
dfs.servers=master.hadoop.test:8649
# Configuration of the "mapred" context for ganglia
mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
mapred.period=10
mapred.servers=master.hadoop.test:8649
# Configuration of the "jvm" context for ganglia
jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
jvm.period=10
jvm.servers=master.hadoop.test:8649
rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
rpc.period=10
rpc.servers=master.hadoop.test:8649
重启Hadoop
修改HBase配置:
hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
hbase.period=10
hbase.servers=master.hadoop.test:8649


jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
jvm.period=10
jvm.servers=master.hadoop.test:8649


rpc.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
rpc.period=10
rpc.servers=master.hadoop.test:8649


rest.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
rest.period=10
rest.servers=master.hadoop.test:8649
重启Hbase
访问http://${ganglia_home}/ganglia

Hadoop是一个开源的大数据处理框架,用于处理海量数据。部署Hadoop分布式集群通常涉及以下几个步骤: 1. **硬件准备**: - 确定节点数量:集群可能由一个或多个节点组成,每个节点都有足够的存储和计算能力。 - 配置硬件:节点需要有独立的硬盘空间(HDFS数据存储)和内存(MapReduce任务执行),以及网络连接。 2. **软件安装**: - 安装基础环境:Linux操作系统是Hadoop的主要运行平台,确保所有节点上都安装了必要的基础工具包。 - 安装Hadoop:下载Hadoop二进制包,按照官方文档的指导进行安装,包括Hadoop的核心(HDFS和MapReduce)、Hadoop YARN、Hive、HBase等组件。 3. **配置文件**: - 修改`core-site.xml`:配置Hadoop的全局参数,如名称节点地址、数据节点地址。 - 修改`hdfs-site.xml`:配置HDFS的详细设置,如块大小、副本数等。 - 配置`yarn-site.xml`:YARN的资源配置和调度策略。 4. **启动服务**: - 启动Hadoop守护进程:包括NameNode(管理HDFS命名空间)、DataNode(存储数据)、ResourceManager(资源管理)、NodeManager(管理本节点任务)等。 - 使用命令行工具(如`start-dfs.sh`和`start-yarn.sh`)或配置脚本来启动和监控集群。 5. **验证集群**: - 使用Hadoop的命令行工具(如`hadoop fs -ls`)检查HDFS文件系统是否正常工作。 - 测试MapReduce任务,确保数据可以被正确分发和处理。 6. **安全管理**: - 配置访问控制:使用Kerberos或者Hadoop的其他安全框架来管理用户身份验证。 7. **监控与日志**: - 安装和配置Hadoop的监控工具(如GangliaHadoop Metrics2)和日志系统(如Log4j)。 8. **扩展性**: - 根据业务需求调整集群规模,添加更多的节点,实现水平扩展。 - 如果数据量持续增长,可能需要考虑使用Hadoop的高级特性如HBase、Hive等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值