spark streaming(文件流，套接字流，RDD队列流)

最新推荐文章于 2024-11-18 20:58:24 发布

原创

最新推荐文章于 2024-11-18 20:58:24 发布 · 1.1k 阅读

5 ·

CC 4.0 BY-SA版权

文件流

>>> from pyspark import SparkContext
>>> from pyspark.streaming import StreamingContext
>>> ssc=StreamingContext(sc,10)
>>> lines=ssc.textFileStream('file:///usr/local/spark/mycode/streaming/logfile')
>>> words=lines.flatMap(lambda line:line.split(' '))
>>> wordCounts=words.map(lambda x:(x,1)).reduceByKey(lambda a,b:a+b)
>>> wordCounts.pprint()
>>> scc.start