在大数据集群搭建过程中的常用命令和踩的坑1(centos7环境)
分布式分发文件命令
scp -r /data/soft/scala-2.11.5 root@hadoop002:/data/soft
spark-shell
报错:
Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag
.; Host Details : local host is: "hadoop001.local/192.168.126.129"; destination host is: "hadoop001":50070;
一般这种都是端口号出错了,需要看主节点运行端口是多少,用上面这个命令去获取正确的端口号:
hdfs getconf -confKey fs.default.name
然后去conf/spark-deaults.conf里把端口配置改成那个就ok啦!
打开web端查看运行情况
简单算个数学题:
scala> 8*2+5
res0: Int = 21
最后,可以使用命令“:quit”退出Spark Shell,如下所示:
scala>:quit
验证zookeeper正常启动状态
[root@hadoop002 bin]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /data/soft/zookeeper-3.4.12/bin/../conf/zoo.cfg
Mode: leader
使配置文件生效
source /etc/profile
关于kafka的安装与运行检查
我下载的版本是1.1.0的,有需要的可以自取
kafka
然后配置文件我就不贴了网上一大把,着重说说改版本启动和生产者消费者的命令:
把该生效的source一下,
1.启动(在kafka文件夹目录下):
./bin/kafka-server-start.sh config/server.properties &
关闭:bin/kafka-server-stop.sh
2.创建topic主题(再开个页面):
./bin/kafka-topics.sh --create --zookeeper hadoop001:2181,hadoop002:2181,hadoop003:2181 --replication-factor 3 --partitions 3 --topic TestTopic
成功创建!
注:
我这是分布式集群模式,单节点写一个就行;
2181是server.properties文件里的配置端口,请参考自己的文件填写;
命令说明:
–topic 定义topic名
–replication-factor 定义副本数
–partitions 定义分区数
3.查看topic主题详情
./bin/kafka-topics.sh --describe --zookeeper hadoop001:2181,hadoop002:2181,hadoop003:2181 --topic TestTopic
4.创建生产者
./bin/kafka-console-producer.sh --broker-list hadoop001:9092,hadoop002:9092,hadoop003:9092 --topic TestTopic
(Ctrl+C终止产生消息)
5.再打开一个窗口创建消费者
./bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092,hadoop002:9092,hadoop003:9092 --from-beginning --topic TestTopic
(Ctrl+C终止消费消息)
6.发送一些消息
Kafka自带一个命令行客户端,它从文件或标准输入中获取输入,并将其作为message(消息)发送到Kafka集群。默认情况下,每行将作为单独的message发送。
运行 producer,然后在控制台输入一些消息以发送到服务器。
This is a message
This is another message
接着我们去到consumer消费者的控制台可见,它将消息转储到标准输出了。
如果您将上述命令在不同的终端中运行,那么现在就可以将消息输入到生产者终端中,并将它们在消费终端中显示出来。
所有的命令行工具都有其他选项;运行不带任何参数的命令将显示更加详细的使用信息。