前言
在大数据的实时数据处理中,不论是使用Spark、还是Flink,都需要与其他组件进行数据交互才有意义。在整个数据流处理中,交互组件的性能决定了数据处理的效率,例如在与缓存中间件Redis的交互,QPS过高就会导致响应过慢,进而表现为程序整体数据处理延时。
如何保证组件性能就成为了重中之重,所以在选择组件的时候,我们会根据其测试的性能指标作为参考依据。在大数据实时流处理中,Kafka是用的比较多的数据源组件。其分区机制提高了并发、副本机制保障了数据的高可用。
除此之外,零拷贝、磁盘顺序读写以及数据文件的索引设计,都极大提高了Kafka的性能。随着Kafka版本的更迭,Kafka也已经成长到,不再依靠Zookeeper实现元数据的管理和节点控制。所以,今天就跟着官方文档,使用Kafka 3.7.0版本,在云服务器上利用docker来搭建一个Kafka。
Kafka镜像
使用docker搭建kafka,不用考虑平台和环境,使用docker pull直接拉取镜像就可以了。官方的文档也给出了命令。
1. 拉取镜像
执行命令,拉取kafka的镜像。
docker pull apache/kafka:3.7.0
拉取失败,提示”missing signature key“,