利用MapReduce来实现全局搜索引擎
根据内容来查看文档,可以统计每个单词在一些文档中出现了几次,来实现全文检索的这样的一个功能
预备文件:
hadoop中分三步走:
1.mapper对文档初步处理, 获得每个单词以及单词的路径,设置每个单词出现的次数都初步设置为1;
输出格式 : 单词||文档uri 1;
2.combiner对于每个文档同样的单词初步的合计统计次数并输出到reducer
合并每个文件单词出现的次数,也就是词频
输出格式: 单词 uri------词频
3.reducer经过shuffer处理形成最终的文件
输出格式; 单词 uri------词频;uri-------词频;
代码展示:
packa