大数据集群启动操作-单节点、集群

最新推荐文章于 2025-06-07 23:14:54 发布

引领时尚S

最新推荐文章于 2025-06-07 23:14:54 发布

阅读量945

点赞数 1

CC 4.0 BY-SA版权

分类专栏： linux

本文链接：https://blog.youkuaiyun.com/yang735136055/article/details/99690969

1、启动hadoop

① 需要启动

1、启动hdfs
sbin/start-dfs.sh
2、启动yarn
sbin/start-yarn.sh
3、启动日志（特别关键，可以很方便的从历史日志中查看你哪里出错，包括system.out.println打印的也可以呈现）
sbin/mr-jobhistory-daemon.sh start historyserver

2、启动zookeeper

bin/zkServer.sh start

3、启动hive

①需要启动

① hdfs和yarn

②原因

因为hive实际上是存储在hdfs上的，且需要安装mysql，它的metstore存储在mysql上。
hive其实就是对hadoop的mr的封装，所以必须启动yarn

③基本操作

启动hdfs和yarn

启动shell共两种方式
1、
bin/hive

2、
[yrx@hadoop102 hive]$ bin/hiveserver2
[yrx@hadoop102 hive]$ bin/beeline
beeline> !connect jdbc:hive2://hadoop102:10000

4、启动hbase

①启动流程

1、zk
2、hdfs 和 yarn
3、hbase 
[yrx@hadoop102 hbase]$ bin/hbase-daemon.sh start master
[yrx@hadoop102 hbase]$ bin/hbase-daemon.sh start regionserver
4、hadoop的日志
sbin/mr-jobhistory-daemon.sh start historyserver

②原因

因为hbase需要注册中心来判断节点是否正常，所以zk是必不可少的，而hbase最终的数据是存储在hdfs上的，所以需要启动hdfs，而hbase需要yarn来管理，所yarn也必须启动，它的数据可以通过yarn的日志来查看，所以启动日志是最好的（当然不启动也可以）

5、启动kafka

①启动流程

1、zk
2、kafka
[yrx@hadoop102 kafka]$ bin/kafka-server-start.sh config/server.properties &

②启动生产者

--topic 后面跟的主题要保证有
bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic  first

③启动消费者

可以在各个节点启动多个
[yrx@hadoop102 kafka]$ bin/kafka-console-consumer.sh --zookeeper hadoop102:2181 --topic first --consumer.config config/consumer.properties

④启动原因

kafka需要zookeeper做注册器

⑤ kafka启动控制台命令

kafka-console-consumer.sh --zookeeper 192.168.3.102:2181 --topic analysis-test
--topic 配置的主题，如果和flume混用的话，这个配置在flume层

6、启动spark

①单机模式

bin/spark-shell   
在本地运行，文件也是本地系统，所以启动的时候只需要单机的bin/spark-shell

②yarn集群模式


1、启动hdfs和yarn (不能启动命令模式，可以直接使用提交的方式)
注：如果是高可用的还得启动zk

2、提交jar包的情况
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100



3、如果配置了hdfs后启动单机spark的话需要启动hdfs（因为将spark的本地文件系统换成了hdfs的），所以我们需要

启动hdfs并指定master  
bin/spark-shell --master local

集群模式下的历史服务

1、启动spark的历史服务：
sbin/start-history-server.sh 

2、查看spark的历史服务，8080端口

7、flume启动

bin/flume-ng agent -c conf/ -f job/flume-1.conf -n a1

-c ：conf里的配置文件
-f ：flume运行配置文件
-n ：.conf里面的配置文件

8、集群群起

集群cluster
hadoop102 hadoop103 hadoop104

显示集群中所有的java进程

#!/bin/bash
list=`cat /opt/module/cluster`
for i in $list
do
    echo =================== $i

最低0.47元/天解锁文章

200万优质内容无限畅学