这个算法来源于QQ群里一位叫醉清风的网友,对于怎么读取文件生成votes这个序列这里就不写了,主要是介绍count思路,使用groupBy函数聚集,然后使用两个map获得需要的统计量。
object wordCountByScala extends App {
val votes = Seq(("scala", 1), ("java", 4), ("scala", 10), ("scala", 1), ("python", 10))
//> votes : Seq[(String, Int)] = List((scala,1), (java,4), (scala,10), (scala,1
//| ), (python,10))
//使用模式匹配聚集key相同的元素
val votesByLang = votes groupBy {case (lang, _) => lang }
//> votesByLang : scala.collection.immutable.Map[String,Seq[(String, Int)]] = M
//| ap(scala -> List((scala,1), (scala,10), (scala,1)), java -> List((java,4)),
//| python -> List((python,10)))
val sumByLang = votesByLang map { case (lang, counts) =>
//对每一个Map元素分别提取后面的数值,并用sum计算总和
val countsOnly = counts map { case (_, count) => count }
(lang, countsOnly.sum)
} //> sumByLang : scala.collection.immutable.Map[String,Int] = Map(scala -> 12, j
//| ava -> 4, python -> 10)
}
本文介绍了一种使用Scala进行词频统计的方法。通过groupBy函数聚集相同词汇,再利用map操作计算每种语言出现的总次数。示例代码清晰地展示了从原始数据到统计结果的转换过程。
843

被折叠的 条评论
为什么被折叠?



