用scala实现wordcount

最新推荐文章于 2023-11-20 15:31:37 发布

转载最新推荐文章于 2023-11-20 15:31:37 发布 · 735 阅读

文章标签：

#算法

SCALA 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种使用Scala进行词频统计的方法。通过groupBy函数聚集相同词汇，再利用map操作计算每种语言出现的总次数。示例代码清晰地展示了从原始数据到统计结果的转换过程。

这个算法来源于QQ群里一位叫醉清风的网友，对于怎么读取文件生成votes这个序列这里就不写了，主要是介绍count思路，使用groupBy函数聚集，然后使用两个map获得需要的统计量。

object wordCountByScala extends App {

  val votes = Seq(("scala", 1), ("java", 4), ("scala", 10), ("scala", 1), ("python", 10))
                                                  //> votes  : Seq[(String, Int)] = List((scala,1), (java,4), (scala,10), (scala,1
                                                  //| ), (python,10))
  //使用模式匹配聚集key相同的元素
  val votesByLang = votes groupBy {case (lang, _) => lang }
                                                  //> votesByLang  : scala.collection.immutable.Map[String,Seq[(String, Int)]] = M
                                                  //| ap(scala -> List((scala,1), (scala,10), (scala,1)), java -> List((java,4)), 
                                                  //| python -> List((python,10)))
   val sumByLang = votesByLang map { case (lang, counts) =>
     //对每一个Map元素分别提取后面的数值，并用sum计算总和
   val countsOnly = counts map { case (_, count) => count }
   (lang, countsOnly.sum)
 }                                                //> sumByLang  : scala.collection.immutable.Map[String,Int] = Map(scala -> 12, j
                                                  //| ava -> 4, python -> 10)
  
}