
hadoop
文章平均质量分 57
wsow
这个作者很懒,什么都没留下…
展开
-
hadoop2.x与Hadoop1.x区别
hadoop2.x与Hadoop1.x区别:(1)2.x比1.x从性能上有很大增强 (2)Hadoop1中的JobTracker是一个功能集中的部分,负责资源的分配和任务的分配,所以JobTracker单点出问题就会造成整个集群无法使用了,而且MapReduce模式是集成在Hadoop1中,不易分解;Hadoop2中,ResourceManager(RM)就是负责资源的分配,Nod原创 2017-09-23 15:04:43 · 1193 阅读 · 0 评论 -
MapReduce的shuffle阶段
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据原创 2017-09-03 12:47:29 · 348 阅读 · 0 评论 -
MapReduce二次排序分区,分组优化
自定义分组 NameGrouppackage test;import org.apache.hadoop.io.RawComparator;import org.apache.hadoop.io.WritableComparator;public class NameGroup implements RawComparator<ConsumeWritable>{ public int c原创 2017-09-03 00:20:29 · 274 阅读 · 0 评论 -
hadoop案例分析(三)
随笔 - 270 文章 - 1 评论 - 1341Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.htm转载 2017-09-19 23:35:22 · 1866 阅读 · 0 评论 -
hadoop网站日志分析(一)
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、项转载 2017-09-19 17:54:41 · 5483 阅读 · 0 评论 -
hadoop案例分析(二)
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一转载 2017-09-19 23:33:48 · 859 阅读 · 0 评论 -
MapReduce 二次排序
自定义keypackage test;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class ConsumeWritable implements WritableCompara原创 2017-09-01 21:24:09 · 216 阅读 · 0 评论 -
MapReduce 图解流程超详细解答(1)-【map阶段】
MapReduce 图解流程超详细解答(1)-【map阶段】转自:http://www.open-open.com/lib/view/open1453097241308.html 在MapReduce中,一个YARN 应用被称作一个job, MapReduce 框架提供的应用,master的一个实现被称作MRAppMaster MapReduce Job的时间线 M转载 2017-09-16 01:15:33 · 295 阅读 · 0 评论 -
hadoop资源
Hadoop学习路线图转自:http://blog.youkuaiyun.com/zhoudaxia/article/details/8801769 按照这个路线图来学习即可。 1、M. Tim Jones的三篇文章: 用Hadoop进行分布式数据处理第1部分(入门):http://www.ibm.com/developerworks/cn/linux/l-hadoop-1转载 2017-09-16 01:12:14 · 279 阅读 · 0 评论 -
HDFS数据安全性如何保证
HDFS数据安全性如何保证1)、存储在HDFS系统上的文件,会分割成128M大小的block存储在不同的节点上,block的副本数默认3份,也可配置成更多份;2)、第一个副本一般放置在与client(客户端)所在的同一节点上(若客户端无datanode,则随机放),第二个副本放置到与第一个副本同一机架的不同节点,第三个副本放到不同机架的datanode节点,当取用时遵循就近原则;原创 2017-09-23 15:05:42 · 5207 阅读 · 0 评论 -
mapreduce
MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计。1. 通俗理解MapReduceMapReduce的处理过程分为两个步骤:map和reduce。每个阶段的输入输出都是key-value的形式,key和value的类型可以自行指定。map阶段对切分好的数据进行并行处理,处理结果传输给reduce,由reduce函数完成最后的汇总。例如从大量历史转载 2017-09-03 14:05:10 · 568 阅读 · 0 评论