spark【例子】倒排索引(InvertedIndex)

本文介绍使用Spark实现函数式编程风格的倒排索引方法。通过两次数据拆分和巧妙的数据处理流程,实现了从原始文档集合到高效倒排索引的转换。此过程涉及读取文件、数据拆分、映射、分组及排序等关键步骤。

例子描述:

【倒排索引(InvertedIndex)】

这个例子是在一本讲Spark书中看到的,但是样例代码写的太Java化,没有函数式编程风格,于是问了些高手,教我写了份函数式的倒排索引。 
这段代码,我在刚开始学的时候很难想到二次拆分数据,所以这个难点挺不错的。

原始数据 
cx1|a,b,c,d,e,f 
cx2|c,d,e,f 
cx3|a,b,c,f 
cx4|a,b,c,d,e,f 
cx5|a,b,e,f 
cx6|a,b,c,d 
cx7|a,b,c,f 
cx8|d,e,f 
cx9|b,c,d,e,f

结果数据 
d|cx1,cx2,cx4,cx6,cx8,cx9 
e|cx1,cx2,cx4,cx5,cx8,cx9 
a|cx1,cx3,cx4,cx5,cx6,cx7 
b|cx1,cx3,cx4,cx5,cx6,cx7,cx9 
f|cx1,cx2,cx3,cx4,cx5,cx7,cx8,cx9 
c|cx1,cx2,cx3,cx4,cx6,cx7,cx9


代码片段:

/* 倒排索引InvertedIndex */

val source = Source.fromFile("E:/cxsvn/txt/dp.txt").getLines.toArray
val cxRDD0 = sc.parallelize(source)                        /* spark单机读取数据 */

cxRDD0.flatMap {
  lines =>
    val line = lines.split("\\|", -1)                      /* 拆分数据,以竖杠为拆分条件 */
    line(1).split(",", -1).map {                           /* 再对拆分后的数据,进行第二次拆分 */
      v =>
        (v, line(0))                                       /* 拼接数据 */
    }
}.groupByKey()                                             /* 分组 */
.sortBy(_._1,true)                                         /* 排序 */
.foreach(x => println(s"${x._1}|${x._2.mkString(",")}"))   /* 格式化输出 */
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
0
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值