spark实现wordCount(scala、python）

最新推荐文章于 2025-01-06 20:48:13 发布

原创

最新推荐文章于 2025-01-06 20:48:13 发布 · 976 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark入门

本文介绍了如何在Spark 1.6环境中，利用Scala 2.11和Python 2.7分别实现WordCount功能。作为理解Spark底层原理的一部分，作者强调了学习Scala对于深入Spark的重要性。

本文环境spark1.6 scala 2.1.6, python 2.7
Spark是大家非常熟悉的大数据处理框架，虽然在公司已经使用了很久，但是没有深入的了解过Spark的底层代码原理，大家都清楚，Spark是由scala开发实现的，为了深入了解Spark，学习scala是必不可少的，在这里简单的写一下三种语言调用Spark接口的方式，实现wordCount功能。

Scala实现

scala实现调用spark真的是十分的简洁，几行代码就完成了统计功能

package ScalaWordCount

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}


object SparkWordCountScala {
  def main(args: Array[String]): Unit = {
    
    /**
    * conf的作用：
     * １. 设置spark的运行模式
     * ２. 设置spark在web ui中显示的名称
     * 3. 设置当前spark application运行资源
     */
    val conf = new SparkConf

    conf.setMaster("local").setAppName("ScalaWordCount")
    
    /**
     * 通往集群的唯一通道 
     */
    val sc = new SparkContext(conf)

    /**
     * spark读取文档或者HDFS中的数据，但是没有直接读取的接口，都是调用ＭＲ读取内容,生成RDD
     */
    val lines: RDD[String] = sc.textFile("words")

    /**
     * 利用RDD的算子对数据进行切分统计排序
     */
    val words: RDD[String] =