spark实战项目之二，读kafka数据流，分组计数

最新推荐文章于 2025-04-29 13:42:10 发布

原创

最新推荐文章于 2025-04-29 13:42:10 发布 · 601 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #spark #kafka #pyspark

本文介绍了在Spark Streaming项目中，从Kafka读取数据流并进行分组计数的过程中遇到的两个问题。首先，解决`Spark Streaming's Kafka libraries not found in class path`错误，通过添加特定版本的spark-streaming-kafka-0-8-assembly jar到类路径。然后，针对`IndexError: list index out of range`错误，分析了因数据处理导致的空list问题，并提出了解决方案。

输入数据来自kafka，十行一组，每组4个数字
长这样

706260,34,13,10
653244,16,8,43
395410,23,15,8
735026,30,29,16
106844,45,29,33
796853,14,41,37
324616,15,5,37
156450,41,2,27
385898,47,34,5
710053,30,37,27

从简单入手，想算出他们按后三个数字分别group by的计数
如果用sql表达，就是三个group by的子查询，外面套一个sum，
在spark里能做的当然比sql多，但先从简单开始吧

参考spark包内带的例子python/streaming/direct_kafka_wordcount.py后
代码大致长这样

from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext(appName="CountByTagPV")
#batch every 1 seconds
ssc = StreamingContext(sc, 1