
hadoop
文章平均质量分 56
Doooer
这个作者很懒,什么都没留下…
展开
-
基于物品(用户)的推荐算法
mapreduce用mapreduce计算框架实现了3个小demo: wordcount、基于物品的推荐算法(itemCF)和基于用户的推荐算法(userCF) itemCF步骤: step1: 根据用户行为列表构建评分矩阵 map输入:key:LongWritable类型,每一行的起始偏移量 value: Text类型 userID,itemID,score map输出:key...原创 2018-11-04 17:40:39 · 4098 阅读 · 0 评论 -
MapReduce--带有词频统计的倒排索引算法
倒排索引:根据单词来查找文档实现:单词1 文档1:次数,文档2:次数,文档5:次数单词1 平均次数单词2 文档3:次数,文档6:次数单词2 平均次数Mapper:输出: key: term- ->docidvalue: 1public static class Mapper1 extends Mapper<LongWritable, Text, Tex...原创 2018-11-14 15:33:10 · 1342 阅读 · 0 评论 -
hadoop mapreduce流程
input split个数等于map任务个数默认情况下,输入片(input split)的大小与数据块(block)的大小相同。已经知道一个input split对应一个map任务, 接下来会对输入片里的记录逐条调用map方法。有多少个键值对,就调用多少次map方法。每一个调用map方法会输出零个或者多个键值对。map方法里的context.write不是直接写入文件,而是先写入环形缓冲区...原创 2018-12-02 22:51:50 · 184 阅读 · 0 评论