spark 倒排索引

最新推荐文章于 2022-12-18 09:18:35 发布

原创

最新推荐文章于 2022-12-18 09:18:35 发布 · 2.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #倒排索引 #scala

该博客介绍了如何使用Spark和Scala构建倒排索引。通过读取文件，转换数据为（文档ID，文档词集合）的RDD，然后映射为（词，文档ID）并去重，最后在reduceByKey阶段聚合每个单词的文档ID，生成倒排索引。示例代码展示了整个过程，并解释了flatMap和reduce方法的使用。

1.实例描述

输入为一批文件，文件内容格式如下：

Id1 The Spark

……

Id2 The Hadoop

……

输出如下：（单词，文档ID合并字符串）

The Id1 Id2

Hadoop Id2

……

2.设计思路

先读取所有文件，数据项为(文档ID，文档词集合)的RDD，然后将数据映射为（词，文档ID）的RDD，去重，最后在reduceByKey阶段聚合每个单词的文档ID

３.代码

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.SparkContext._

import scala.collection.mutable

object InvertedIndex {

def main(args: Array[String]) {

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

仰望星空_

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark学习:使用RDD API实现倒排索引

nzbing的博客

04-16

3105

使用RDD API实现倒排索引 #一、本地IDE运行 1、pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

kafka+spark streaming+hbase 倒排索引 实现实时流搜索引擎

wu的博客

01-14

1419

集群说明集群ip 集群配置 172.17.11.63（master） Hadoop-2.7.6(Namenode) spark-2.4.0 Hbase-1.2.4 Kafka_2.11-2.1.0 Zookeeper-3.4.10 172.17.11.37 ...

参与评论您还未登录，请先登录后发表或查看评论

Spark入门--倒排索引

xuyaoqiaoyaoge的博客

07-31

5031

思路这个程序我可是花了3天才写起来的，主要是学习嘛，很多API不知道，一边查一边学喽。首先读取文件夹里面的所有文件，将每个文件的内容按行拆分，然后再按单词拆分，组成（文件名，单词）对，然后再合并，最后得到我们的结果。

spark实现倒排索引

zaishijizhidian的博客

09-08

1705

1.需求：读取文件夹下的文件列表，并实现文件索引和词频统计 2.思路 2.1读取目录下的文件，并生成列表 2.2遍历文件，并读取文件类容成成Rdd，结构为（文件名，单词）并将多个Rdd拼接成1个Rdd 2.3 构建词频（（文件名，单词），词频） 2.4调整输出格式,将（文件名，单词），词频）==》（单词，（文件名，词频）） ==》（单词，（文件名，词频））汇总 3.实现 package org.jike import org.apache.hadoop.fs.{FileSyst...

spark - 小实践（5）倒排索引

u013560925的博客

05-15

2129

finalRDD: Array[(String, String)] = Array((spark,Spark大数据分析实战), (日志分析,Spark大数据分析实战 hadoop实战), (mapreduce,hadoop实战大数据实战), (hdfs,hadoop实战大数据实战), (大数据,Spark大数据分析实战 hadoop实战), (namenode,hadoop实战大数据实战),...

倒排索引

weixin_33796205的博客

03-03

204

1.实例描述输入为一批文件，文件内容格式如下：Id1 The Spark……Id2 The Hadoop……输出如下：（单词，文档ID合并字符串）The Id1 Id2Hadoop Id2……2.设计思路先读取所有文件，数据项为(文档ID，文档词集合)的RDD，然后将数据映射为（词，文档ID）的RDD，去重，最后在reduceByKey阶段聚合每个单词的文档ID３...

[spark]倒排索引

12-27

1041

ref: http://www.aboutyun.com/thread-12900-1-1.html import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ import scala.collection.mutable /** * * Crea

倒排索引源码java-spark-in-practice:Spark入门、SparkStreaming、SparkSQL、DataFrame

06-19

倒排索引源码 java 车间火花实践在本次研讨会中，练习的重点是使用和 API，以及数据处理。练习在 Java 和我的 github 帐户中都可用（这里是 java）。你只需要克隆项目就可以了！如果您需要帮助，请查看解决方案...

spark 例子倒排索引

weixin_30318645的博客

06-14

458

spark 例子倒排索引 例子描述：【倒排索引(InvertedIndex)】这个例子是在一本讲spark书中看到的，但是样例代码写的太java化，没有函数式编程风格，于是问了些高手，教我写了份函数式的倒排索引。这段代码，我在刚开始学的时候很难想到二次拆分数据，所以这个难点挺不错的。原始数据 cx1|a,b,c,d,e,f cx2|c,d,e,f cx3|a,b,c,f cx4|a,b,...

spark:倒排索引

军军的博客

07-24

1318

倒排索引蛮简单的，我们一般是一篇文档中出现了哪些词，倒排索引就是统计出每个词在哪些文档中出现过： import org.apache.spark.{SparkConf, SparkContext} /** * Created by fhqplzj on 16-7-24 at 下午4:22. */ object InvertedIndex { def main(args: Array

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

showswoller的博客

12-18

1874

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

基于Spark SQL的分布式全文检索框架的设计与实现.pdf

08-08

#资源达人分享计划#

spark【例子】倒排索引(InvertedIndex)

sysmedia的博客

04-11

3361

例子描述：【倒排索引(InvertedIndex)】这个例子是在一本讲Spark书中看到的，但是样例代码写的太Java化，没有函数式编程风格，于是问了些高手，教我写了份函数式的倒排索引。这段代码，我在刚开始学的时候很难想到二次拆分数据，所以这个难点挺不错的。原始数据 cx1|a,b,c,d,e,f cx2|c,d,e,f cx3|a,b,c,f cx4

【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战（附源码和数据集超详细）

showswoller的博客

12-16

1186

【大数据技术Hadoop+Spark】MapReduce之单词计数和倒排索引实战（附源码和数据集超详细）

scala 简易倒排索引

赵利文的优快云博客

07-21

674

需求：统计出指定磁盘目录下文件中的单词在哪些文件存在过：文件doc1.txt： hello spark hello hadoop 文件doc2.txt： hello hive hello hbase hello spark 文件doc3.txt： hadoop hbase hive scala 我的实现方式： package liwen.zhao.invert import org.apache.spark.SparkContext import org.apache.spark.Spark

Spark RDD编程API

Running_Tiger的博客

03-06

695

Spark RDD编程API1. RDD的算子分类 Transformation（转换）：根据数据集创建一个新的数据集，计算后返回一个新RDD；例如：一个rdd进行map操作后生了一个新的rdd。 Action（动作）：对rdd结果计算后返回一个数值value给驱动程序；例如：collect算子将数据集的所有元素收集完成返回给驱动程序。 2. TransformationRDD中的所有转换都是延

Inverted Index（倒排索引）

D.W 的专栏

07-30

5231

传统的正排索引指的是doc->word的映射，然而在实际工作中，仅仅只有正排索引是远远不够的，比如我想知道某个word出现在那些doc当中，就需要遍历所有的doc，这在实时性要求比较严的系统中是不能接受的。因此，就出现了倒排索引（inverted index ），详细内容参见Wikipedia-Inverted index。本文主要讲解的是如何使用Scala编写Spark程序来实现倒排索引。原理目的