[Spark应用]-- 实现单词统计（数据源在hdfs上）

oo寻梦in记

于 2016-06-04 16:26:15 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： Apache Spark 文章标签： spark scala

本文链接：https://blog.youkuaiyun.com/high2011/article/details/51584934

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文档详细介绍了如何利用Apache Spark和Scala编程语言，从Hadoop分布式文件系统（HDFS）读取数据，并进行单词统计分析。通过实例代码，展示了Spark的高效数据处理能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实现如下

package com.scala.my

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.SparkConf
import org.apache.spark.streaming.Durations
/**
 * scala版本的hdfs上wordCount
 */
object HdfsWordCount {
  def main(args: Array[String]): Unit = {
    //获取streamingContex，并设置切分rdd时间为6s
    val sc=new StreamingContext(new SparkConf().setAppName("hdfsCount").setMaster("local[2]"),Durations.seconds(5))
    //读取hdfs上的数据
    val lines =sc.textFileStream("hdfs://master:8020/wordcount_dir")
    //压扁
    val paris=lines.flatMap(x=>x.split(","))
    //map
    val map=paris.map { (_,1) }   
    //reduceBykey
    val words=map.reduceByKey(_+_)
    //打印前10个
    words.print()
    //开启
    sc.start()
    //等待
    sc.awaitTermination()
    //关闭资源
    sc.stop()
  }
}