
MapReduce
日拱一卒的Alex
一个乐观善良且温暖的人,认真对待生活中的每一天,成为更好的自己
展开
-
基于MapReduce的二次排序
排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。 这里主要讲如何使用一个Mapreduce就可以实现二次排序。Hadoop有自带的SecondarySort程序,但这个程序只能对整数进行排序,所以我们需要对其进行改进,使其可以对任意字符串进行排序。下面会分别列出这两个程序的详解。原创 2017-08-24 20:22:39 · 440 阅读 · 0 评论 -
MapReduce的疑难杂症
1.Java.net.SocketTimeoutException: 60000millis timeout while waiting for channel to be ready for read. ch若果排除代码纰漏,这就是电脑配置引起的问题,因为切片分的太多所以导致运行超时。应该用ConbineTextInputFormat规定每个任务读取文件的最低大小,从而减少切分数job.原创 2017-08-10 19:30:06 · 821 阅读 · 0 评论 -
map端join算法实现
map端的表连接实现原创 2017-08-22 17:30:15 · 632 阅读 · 0 评论 -
Eclipse本地运行与远程提交MapReduce程序的步骤详解
本地运行与远程提交MapReduce程序的步骤详解原创 2017-08-15 11:07:18 · 4463 阅读 · 1 评论 -
MapReduce实现寻找共同好友
MapReduce实现寻找共同好友详解原创 2017-08-23 23:16:43 · 5325 阅读 · 2 评论 -
PageRank算法详解
转载自:http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.htmlPageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerank PageRank的Page可是认为是网页,转载 2017-08-25 21:34:58 · 913 阅读 · 0 评论 -
基于MapReduce框架的K-means算法实现
基于mapreduce并行处理的K-means算法实现原创 2017-08-19 09:37:43 · 4042 阅读 · 1 评论 -
基于MapReduce框架的PageRank算法实现
1.PageRank简述 PageRank算法将互联网看成一个有向图,而互联网中的每一个网页看成图中的一个顶点,将网页之间的链接看做图中的边。并且通过顶点之间的邻接关系计算每一个网页的权值,然后根据这个值的大小对网页的重要性进行排序。PageRank生成的Web网页排序是静态的,这是指每个网页的排序值是通过离线计算得到的,并且该值与用户的查询无关。在讨论讨论PageRank的公式之前,先原创 2017-09-01 13:24:29 · 1980 阅读 · 0 评论