MapReduce 数据处理模式详解
1. 倒排索引模式
1.1 模式描述
倒排索引模式常用于 MapReduce 分析,其目的是构建一个从某个术语到标识符列表的映射。通过这种方式,可以从数据集生成索引,以实现更快的搜索或数据丰富功能。
1.2 动机
在大数据集上按关键字建立索引通常很方便,这样搜索时就能将术语追溯到包含特定值的记录。虽然预先构建倒排索引需要额外的处理,但这样做可以大大减少查找所需的时间。例如,搜索引擎通过构建倒排索引来提高搜索性能,避免每次查询都进行全网爬取。
1.3 适用性
当需要快速搜索查询响应时,应使用倒排索引。查询结果可以预先处理并导入数据库。
1.4 结构
倒排索引在 MapReduce 中的执行结构如下:
- Mapper :将索引所需的字段作为键,唯一标识符作为值输出。
- Combiner :如果使用恒等归约器,可以省略组合器。某些实现会在将值输出到文件系统之前将与组关联的值连接起来,此时可以使用组合器,但对字节数的优化效果不如其他模式。
- Partitioner :负责确定具有相同键的值最终将由归约器复制到何处进行最终输出。如果中间键分布不均匀,可以自定义分区器以实现更高效的负载均衡。
- Reducer :接收一组唯一的记录标识符,并将其映射回输入键。标识符可以用唯一分隔符连接,每个组输出一个键/值对;也可以将每个输入值与输入键一起写入,
超级会员免费看
订阅专栏 解锁全文
61

被折叠的 条评论
为什么被折叠?



