Spark初体验(2)--WordCount详解

本文介绍了如何使用Apache Spark实现WordCount程序。通过加载文本文件,将其转换为RDD,并利用flatMap、map及reduceByKey等操作完成单词计数。最终将结果保存至指定路径。

WordCount代码如下:

import org.apache.spark.{SparkContext, SparkConf}

/**
 * Created by zhangph on 2015/11/25.
 */

object WordCount {
  def main (args: Array[String]) {
    if(args.length < 1){
      System.err.println("Usage: <file>")
      System.exit(1);
    }
    val conf = new SparkConf();
    val sc = new SparkContext(conf)
    val line = sc.textFile(args(0))    
    val result = line.flatMap(_.split(" ")).map(x => (x(1), 1)).reduceByKey(_+_)
    //result.collect().foreach(println)
    result.saveAsTextFile(args(1))
    sc.stop()
  }
}
val line = sc.textFile(args(0))  

使用textFile函数将文件转换为一个RDD,该函数采用Hadoop中的TextInputFormat解析输入数据,textFile中的每个Hadoop Block相当于一个RDD分区。

val result = line.flatMap(_.split(" ")).map(x => (x(1), 1)).reduceByKey(_+_)

flatMap将加载的数据使用空格分割后生成新的RDD;
map将每条记录加1之后生成新的RDD;
reduceByKey将key相同的关键字的数据集合到一起进行函数运算。

result.collect().foreach(println)
result.saveAsTextFile(args(1))

Actions 算子
第一句是将MapReduce的结果先toArray然后再输出每个元素;
第二句是将结果写入到文件中。

The only way to survive was to enjoy the good moments and not dwell too much on the bed.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值