
Hadoop
文章平均质量分 87
行路南
公众号:CV前沿
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce 之 倒排索引 基本概念、设计思路和源码分析
每天我们都在使用搜索引擎,比如Google,百度,Bing,通常我们搜索一个关键词,搜索引擎瞬间就能给出我们想要的页面。这实际上是一种非常令人棒的体验。可我们有没有想过为什么搜索引擎能够在数十亿的网页中瞬间找到我们理想的结果呢?一个很重要的原因就是:这些搜索引擎都使用了倒排索引技术(Inverted Index)。如果没有倒排索引,搜索引擎在每次检索时,必须遍历所有的页面,然后在每个页面中查找是否包原创 2016-05-15 21:59:24 · 2072 阅读 · 0 评论 -
MapReduce 之PageRank 算法概述、设计思路和源码分析
早就对PageRank 算法感兴趣,但一直都是轮廓性的概念,没有具体深入学习。最近要学习和总结MapReduce 的实例,就又把PageRank 算法重新学习了一遍,并基于MapReduce 进行了实现。1. PageRank是什么PageRank,网页排名,右脚网页级别。是以Google 公司创始人Larry Page 之姓来命名。PageRank 计算每一个网页的PageRank值,并根据Pag原创 2016-05-14 13:42:08 · 11999 阅读 · 4 评论 -
MapReduce 之 单表关联 设计思路与源码分析
本文通过一个简单的样例child-parent 表来介绍单表关联,在介绍这部分内容的时候主要包括两部分:1、描述清楚每一部分设计的思路;2、基于Mapreduce 进行了实现。1. 样例child-parent表的内容和期望的输出我们得到一个child-parent 表,然后希望能够通过挖掘到两列之间的关系,得到一个新的表 grandchild-grandparent 。为了方便说明问题,首先给出一原创 2016-05-13 20:08:36 · 1181 阅读 · 0 评论 -
hadoop完全分布式集群安装
因为机器学习,接触到了数据挖掘;因为数据挖掘,接触到了大数据;因为大数据,接触到了hadoop。之前有过hadoop的简单了解,但都是基于别人提供的hadoop来学习和使用,虽然也很好用 ,终究不如自己的使用起来方便 。经过这两天参考大量网上的经验,终于成功的搭建了自己的hadoop完全分布式环境。现在我把所有的安装思路、安装过程中的截图以及对待错误的经验总结出来,相信安装这个思路去做,hadoop原创 2016-04-25 21:40:27 · 2251 阅读 · 0 评论 -
hadoop 自带示例wordcount 详细运行步骤
因为机器学习,接触到了数据挖掘;因为数据挖掘,接触到了大数据;因为大数据,接触到了Hadoop。之前有过hadoop的简单了解,但都是基于别人提供的hadoop来学习和使用,虽然也很好用 ,终究不如自己的使用起来方便 。经过这两天参考大量网上的经验,终于成功的搭建了自己的hadoop完全分布式环境。现在我把所有的安装思路、安装过程中的截图以及对待错误的经验总结出来,相信安装这个思路去做,hadoop原创 2016-04-26 21:20:19 · 21100 阅读 · 7 评论 -
HDFS 读写数据详细步骤
读取数据: 如图所示: client 要从datanode 上读取file ,而file是由block1 和block2 组成的。其中block1 在datanode 的存储位置是 host2,host1,host3; block2 在datanode 的存储位置是 host7,host8,host4; 它的读取流程如下: client 向namenode 发送读取请求,并告诉它要读取的文原创 2016-05-04 19:53:30 · 3477 阅读 · 0 评论 -
MapReduce之 WordCount 源码分析和操作流程
在之前的工作中,主要做了三件事情:1 如何完成Hadoop的完全分布式集群搭建 2 如何运行Hadoop自带示例WordCount,验证集群的运行 3 如何基于eclipse插件实现Hadoop编程完成每一件事都需要经过谨慎的操作、反复的验证,还有耐心。安装完之后一下成功是很难的,仍需要检验每一步的操作、查看错误问题的日志、分析网上类似问题的各类解决方法,于是在千转百回之下,柳暗花明。我分享了以原创 2016-05-06 21:44:56 · 6247 阅读 · 0 评论 -
MapReduce 之 数据去重
最近要更新一些MapReduce实例应用的系列文章。文章结构上包括以下几个部分:1.、问题背景;2、基于MapReduce的解决思路;3、代码实现;4、运行结果。1. 问题背景随着数据信息量的急速增长,越来越多的人开始关注存储数据的数据去重技术。数据去重是指对所有的数据进行一个有意义的筛选,去除掉冗余的数据。例如统计大数据集上的数据种类个数、从网站日志中计算访问地等都会涉及到数据去重。下面通过一个例原创 2016-05-11 16:05:35 · 7420 阅读 · 2 评论