pythonshell中编写spark程序(wordcount)
sc.textFile("hdfs://linux01:9000/data/wordcount").flatMap(lambda line:line.split(" ")).map(lambda word:(word,1)).reduceByKey(lambda x,y:x + y).sortBy(lambda t:t[1],False).collect()
本文详细介绍了如何在Python的Shell环境中使用Apache Spark进行WordCount操作,从读取HDFS文件开始,经过flatMap、map、reduceByKey、sort和collect等步骤,实现单词及其频率的计算和排序。
pythonshell中编写spark程序(wordcount)
sc.textFile("hdfs://linux01:9000/data/wordcount").flatMap(lambda line:line.split(" ")).map(lambda word:(word,1)).reduceByKey(lambda x,y:x + y).sortBy(lambda t:t[1],False).collect()
365

被折叠的 条评论
为什么被折叠?