文章目录
零、学习目标
- 理解倒排索引
- 实现倒排索引
一、导入新课
- 通过上节课的学习,我们对MapReduce运行模式和性能优化策略有了一定的认识。本节课将针对MapReduce经典案例——倒排索引进行详细讲解。
二、新课讲解
(一)案例分析
1、倒排索引介绍
- 倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(Inverted File)。
2、案例需求及分析
- 现假设有三个源文件file1.txt、file2.txt和file3.txt,需要使用倒排索引的方式对这三个源文件内容实现倒排索引,并将最后的倒排索引文件输出。