spark实战项目之二,读kafka数据流,分组计数

本文介绍了在Spark Streaming项目中,从Kafka读取数据流并进行分组计数的过程中遇到的两个问题。首先,解决`Spark Streaming's Kafka libraries not found in class path`错误,通过添加特定版本的spark-streaming-kafka-0-8-assembly jar到类路径。然后,针对`IndexError: list index out of range`错误,分析了因数据处理导致的空list问题,并提出了解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

输入数据来自kafka,十行一组,每组4个数字
长这样

706260,34,13,10
653244,16,8,43
395410,23,15,8
735026,30,29,16
106844,45,29,33
796853,14,41,37
324616,15,5,37
156450,41,2,27
385898,47,34,5
710053,30,37,27

从简单入手,想算出他们按后三个数字分别group by的计数
如果用sql表达,就是三个group by的子查询,外面套一个sum,
在spark里能做的当然比sql多,但先从简单开始吧

参考spark包内带的例子python/streaming/direct_kafka_wordcount.py后
代码大致长这样

from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

sc = SparkContext(appName="CountByTagPV")
#batch every 1 seconds
ssc = StreamingContext(sc, 1)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值