自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Utopia_1919

最恨成仙难。

博客等级

码龄10年

13
原创

12
点赞

31
收藏

6
粉丝

关注

私信

热门文章

分类专栏

mahout 5篇
用户行为分析 1篇
scala
docker 1篇
spark 2篇
python 1篇

最新评论

python设置定时任务（定时执行脚本）
艾孜尔江: while true????????????????????
Spark读写S3（AWS亚马逊中国区beijing）
yan12344: 请问老师，如何“引入Hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar，以及aws自己提供的sdk包：aws-Java-sdk-1.7.4.jar”呢？我是小白，用的是单机版本的spark，python接口。期望您的解答
mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob
qq_27380363: 楼主,我觉得下面有点疑问,我可以解释一下,如果有误请指出. 每行最相似度最大的topN个Item,最后生成的矩阵并非是对称矩阵,是一个非对称矩阵来的. 而mahout第一步求出了对称矩阵的上半段,下半段是没有求出, 因此算法分为两部走: (1)一部分为了性能,对上半段的每一行求topN,可以节省数据量. (2)下面的reduce是重新整合变成对称矩阵的下半段,再求出每一行的topN. 根据这两部分运算,计算速度是大幅度提高. protected void reduce(IntWritable row, Iterable<VectorWritable> partials, Context ctx) throws IOException, InterruptedException { Vector allSimilarities = Vectors.merge(partials); //重新求一遍TopN（因为转置以后得到的相似度还没有求过topN） //其实笔者认为数据量不大或者数据关联性不高的时候可以先求转置然后一次性直接求topN的 //这里mahout它是map的时候对对称矩阵的上半段求TopN然后在reduce中对所有再求一遍TopN Vector topKSimilarities = Vectors.topKElements(maxSimilaritiesPerRow, allSimilarities); ctx.write(row, new VectorWritable(topKSimilarities)); }
mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob
「已注销」: 楼主，这个代码能给我发一份吗？ booksaga@163.com

spark

关注

文章平均质量分 51

关注数：文章数：3 文章阅读量：15188 文章收藏量：4

作者: Utopia_1919

最恨成仙难。

展开

专栏收录文章