输入数据来自kafka,十行一组,每组4个数字
长这样
706260,34,13,10
653244,16,8,43
395410,23,15,8
735026,30,29,16
106844,45,29,33
796853,14,41,37
324616,15,5,37
156450,41,2,27
385898,47,34,5
710053,30,37,27
从简单入手,想算出他们按后三个数字分别group by的计数
如果用sql表达,就是三个group by的子查询,外面套一个sum,
在spark里能做的当然比sql多,但先从简单开始吧
参考spark包内带的例子python/streaming/direct_kafka_wordcount.py后
代码大致长这样
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
sc = SparkContext(appName="CountByTagPV")
#batch every 1 seconds
ssc = StreamingContext(sc, 1)