spark【例子】倒排索引(InvertedIndex)

最新推荐文章于 2025-08-16 13:10:05 发布

转载最新推荐文章于 2025-08-16 13:10:05 发布 · 3.3k 阅读

文章标签：

#spark

SQL 专栏收录该内容

4 篇文章

订阅专栏

本文介绍使用Spark实现函数式编程风格的倒排索引方法。通过两次数据拆分和巧妙的数据处理流程，实现了从原始文档集合到高效倒排索引的转换。此过程涉及读取文件、数据拆分、映射、分组及排序等关键步骤。

例子描述：

【倒排索引(InvertedIndex)】

这个例子是在一本讲Spark书中看到的，但是样例代码写的太Java化，没有函数式编程风格，于是问了些高手，教我写了份函数式的倒排索引。
这段代码，我在刚开始学的时候很难想到二次拆分数据，所以这个难点挺不错的。

代码片段：

/* 倒排索引InvertedIndex */

val source = Source.fromFile("E:/cxsvn/txt/dp.txt").getLines.toArray
val cxRDD0 = sc.parallelize(source)                        /* spark单机读取数据 */

cxRDD0.flatMap {
  lines =>
    val line = lines.split("\\|", -1)                      /* 拆分数据，以竖杠为拆分条件 */
    line(1).split(",", -1).map {                           /* 再对拆分后的数据，进行第二次拆分 */
      v =>
        (v, line(0))                                       /* 拼接数据 */
    }
}.groupByKey()                                             /* 分组 */
.sortBy(_._1,true)                                         /* 排序 */
.foreach(x => println(s"${x._1}|${x._2.mkString(",")}"))   /* 格式化输出 */
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15