Kafak+Flink实现词频统计demo

本文提供了一个在Windows环境下,使用Flink 1.7.2、Kafka 2.1.1和Zookeeper 3.4.13进行实时词频统计的入门示例。首先介绍了环境配置,包括Zookeeper、Kafka和Flink的安装与启动。然后展示了项目代码,包括pom.xml和Java代码。最后,详细说明了如何将项目打包为jar并发布到Flink,通过Flink Web UI提交任务,实现从Kafka topic读取数据并计算词频,结果会在Flink Job Manager中展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

整个demo流程均在win10操作系统完成,过程中使用的所有组件都以单机模式安装在本地,整个流程可看作flink版本的helloworld。实现基本功能是在kafka生产者输入一串以空格分隔的字符串,最终计算后得到每个字符串的出现频次。


环境准备


  • zookeeper安装:

使用的v3.4.13版本,官网下载安装包,解压缩,修改conf下的zoo_sample.cfg文件,主要注意如下所示

# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=E:\BigData\zookeeper-data
# the port at which the clients will connect
clientPort=2181

将dataDir指向本地某个目录,设置客户端端口,这里可默认使用2181。修改完成保存后,cmd窗口中进入bin目录执行启动zk。

zkServer.cmd

 

  •  kafka安装:

使用的kafka_2.11-2.1.1版本,同样官网下在压缩包后解压缩,默认可不用修改配置。进入bin\windows目录,cmd窗口中依次执行指令:

kafka-server-start.bat ..\..\config\server.properties
kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
kafka-console-producer.bat --broker-list localhost:9092 --topic test
kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test --from-beginning

分别表示:启动kafka、创建topic test、发布消息到test、订阅test消息。此时,在打开的生存者窗口中输入一条消息,将会在消费者窗口展示。

  •  flink安装:

使用flink-1.7.2版本,同样官网下在压缩包后解压缩,默认可不用修改配置。进入bin目录,cmd窗口执行指令启动即可。

start-cluster.sh<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值