在大数据集群搭建过程中的常用命令和踩的坑1（centos7环境）_大数据集群搭建过程中需要避开的坑-优快云博客

本文链接：https://blog.youkuaiyun.com/socall_me_maybe/article/details/129746686

文章详细描述了在CentOS7环境下搭建大数据集群时的一些常用命令，包括分布式文件分发、SparkShell的使用及遇到的ProtocolBufferException错误的解决方法，还涉及到了Zookeeper的状态检查以及Kafka的安装、启动、创建topic、生产者与消费者的操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在大数据集群搭建过程中的常用命令和踩的坑1（centos7环境）

分布式分发文件命令

scp -r /data/soft/scala-2.11.5 root@hadoop002:/data/soft

spark-shell

报错：

Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag
.; Host Details : local host is: "hadoop001.local/192.168.126.129"; destination host is: "hadoop001":50070;

一般这种都是端口号出错了，需要看主节点运行端口是多少，用上面这个命令去获取正确的端口号：

hdfs getconf -confKey fs.default.name

然后去conf/spark-deaults.conf里把端口配置改成那个就ok啦！
在这里入图片描述
在这里插入图片描述
打开web端查看运行情况

简单算个数学题：

scala> 8*2+5
res0: Int = 21

最后，可以使用命令“:quit”退出Spark Shell，如下所示：

scala>:quit

验证zookeeper正常启动状态

[root@hadoop002 bin]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /data/soft/zookeeper-3.4.12/bin/../conf/zoo.cfg
Mode: leader

使配置文件生效

source /etc/profile

关于kafka的安装与运行检查

我下载的版本是1.1.0的，有需要的可以自取
kafka

在这里插入图片描述
然后配置文件我就不贴了网上一大把，着重说说改版本启动和生产者消费者的命令：
把该生效的source一下，
1.启动（在kafka文件夹目录下）：

./bin/kafka-server-start.sh config/server.properties &

关闭：bin/kafka-server-stop.sh
2.创建topic主题（再开个页面）：

./bin/kafka-topics.sh --create --zookeeper hadoop001:2181,hadoop002:2181,hadoop003:2181 --replication-factor 3 --partitions 3 --topic TestTopic

在这里插入图片描述
成功创建！
注：
我这是分布式集群模式，单节点写一个就行；
2181是server.properties文件里的配置端口，请参考自己的文件填写；
命令说明：
–topic 定义topic名
–replication-factor 定义副本数
–partitions 定义分区数

3.查看topic主题详情

./bin/kafka-topics.sh --describe --zookeeper hadoop001:2181,hadoop002:2181,hadoop003:2181 --topic TestTopic

在这里插入图片描述
4.创建生产者

./bin/kafka-console-producer.sh --broker-list hadoop001:9092,hadoop002:9092,hadoop003:9092 --topic TestTopic

(Ctrl+C终止产生消息)
5.再打开一个窗口创建消费者

./bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092,hadoop002:9092,hadoop003:9092  --from-beginning --topic TestTopic

(Ctrl+C终止消费消息)

6.发送一些消息
Kafka自带一个命令行客户端，它从文件或标准输入中获取输入，并将其作为message（消息）发送到Kafka集群。默认情况下，每行将作为单独的message发送。
运行 producer，然后在控制台输入一些消息以发送到服务器。

This is a message
This is another message

在这里插入图片描述

接着我们去到consumer消费者的控制台可见，它将消息转储到标准输出了。
在这里插入图片描述

如果您将上述命令在不同的终端中运行，那么现在就可以将消息输入到生产者终端中，并将它们在消费终端中显示出来。

所有的命令行工具都有其他选项；运行不带任何参数的命令将显示更加详细的使用信息。