Scala版的WordCount单词统计

最新推荐文章于 2024-09-26 20:53:41 发布

道法—自然

最新推荐文章于 2024-09-26 20:53:41 发布

阅读量446

点赞数

CC 4.0 BY-SA版权

分类专栏： Scala语言

本文链接：https://blog.youkuaiyun.com/wyqwilliam/article/details/82819875

Scala语言专栏收录该内容

0 篇文章

订阅专栏

本文详细介绍使用Apache Spark进行大规模数据处理的实战案例，包括如何利用Scala编程语言读取文本文件，进行单词频率统计，并通过flatMap、map及reduceByKey等操作实现高效的数据处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

源数据:

hello word
hello java
hello python
hello waad
hello word
hello java
hello python
hello waad
hello word
hello java
hello python
hello waad
hello word
hello java
hello python
hello waad
hello word
hello java
hello python
hello waad
dfsadh
dafhads sadfksadj sadfksadh 
dsafhkjdsahf sdahfksad 
sdfkjahlksadf fdshjslkad 
ghghfhjkdhf

Scala代码：

import scala.tools.scalap.Main
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext


object Regression {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("local").setMaster("local");
    val sc=new SparkContext(conf);
//    val data=sc.textFile("./words");
//    data.flatMap(_.split(" ")).map((_,1)).reduceByKey((_+_)).collect().foreach(println)
  
    sc.textFile("./words").flatMap(s=>{
      s.split(" ")
    }).map(s=>{
      (s,1)
    }).reduceByKey((v1,v2)=>{
      (v1+v2)
      }).foreach(s=>{
        println(s)
      })    
  }  
}