输入数据来自kafka,十行一组,每组4个数字
长这样
706260,34,13,10
653244,16,8,43
395410,23,15,8
735026,30,29,16
106844,45,29,33
796853,14,41,37
324616,15,5,37
156450,41,2,27
385898,47,34,5
710053,30,37,27
从简单入手,想算出他们按后三个数字分别group by的计数
如果用sql表达,就是三个group by的子查询,外面套一个sum,
在spark里能做的当然比sql多,但先从简单开始吧
参考spark包内带的例子python/streaming/direct_kafka_wordcount.py后
代码大致长这样
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
sc = SparkContext(appName="CountByTagPV")
#batch every 1 seconds
ssc = StreamingContext(sc, 1

本文介绍了在Spark Streaming项目中,从Kafka读取数据流并进行分组计数的过程中遇到的两个问题。首先,解决`Spark Streaming's Kafka libraries not found in class path`错误,通过添加特定版本的spark-streaming-kafka-0-8-assembly jar到类路径。然后,针对`IndexError: list index out of range`错误,分析了因数据处理导致的空list问题,并提出了解决方案。
最低0.47元/天 解锁文章
3089

被折叠的 条评论
为什么被折叠?



