
hadoop
zhubing10061210
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop-io-序列化机制与jdk序列化机制对比
http://blog.youkuaiyun.com/androidlushangderen/article/details/41625829转载 2015-11-10 08:45:36 · 377 阅读 · 0 评论 -
mapreduce之shuffle原理
转载于 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个转载 2016-09-07 17:50:39 · 357 阅读 · 0 评论 -
借鉴博客
http://blog.youkuaiyun.com/androidlushangderen/article/details/50421856转载 2015-12-30 08:51:01 · 266 阅读 · 0 评论 -
storm入门
转载于 ====Storm的起源。 Storm是开源的、分布式、流式计算系统 什么是分布式呢?就是将一个任务拆解给多个计算机去执行,让许多机器共通完成同一个任务, 把这个多机的细节给屏蔽,对外提供同一个接口、同一个服务,这样的系统就是分布式系统。 在多年以前并没有非常范用的分布式系统,即使存在,也都是限定在指定的转载 2017-02-14 22:51:20 · 286 阅读 · 0 评论 -
storm介绍一
转载于:http://www.cnblogs.com/Jack47/p/storm_intro-1.html 内容简介 本文是Storm系列之一,介绍了Storm的起源,Storm作者的八卦,Storm的特点和Storm模型的基本原理,着重介绍了Storm中的基本概念(Spout, Bolt, Stream, Tuple等)和对应的编程接口,可以作为转载 2017-05-16 09:40:48 · 473 阅读 · 0 评论 -
storm介绍2
转载于:http://www.cnblogs.com/Jack47/p/storm_intro-2.html 理解Storm的架构,有助于帮助我们理解大型分布式系统设计中需要解决的问题,以及解决问题的思路,帮助我们更好的进行Storm性能调优化。 架构 先上一张Storm的架构图,如果熟悉 GFS和Hadoop的架构,会发现这些系统的架构图都很类似。转载 2017-05-16 09:42:58 · 284 阅读 · 0 评论 -
Storm内部的消息传递机制
转载于:http://www.cnblogs.com/Jack47/p/understanding-storm-internal-message-passing.html 一个Storm拓扑,就是一个复杂的多阶段的流式计算。Storm中的组件(Component)就是对各个阶段的一个抽象,其中的Spout是生产者的角色,它负责源源不断地从Storm外部接收消息,扔给下游的转载 2017-05-16 09:44:25 · 705 阅读 · 0 评论 -
Storm如何保证可靠的消息处理
转载于:http://www.cnblogs.com/Jack47/p/guaranteeing-message-processing-in-storm.html 内容简介 Storm可以保证从Spout发出的每个消息都能被完全处理。Storm的可靠性机制是完全分布式的(distributed),可伸缩的(scalable),容错的(fault-tolerant转载 2017-05-16 09:45:35 · 509 阅读 · 0 评论 -
大数据经典学习路线(storm,spark)
1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此阶段可解决的现实问题: 搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务; 学完此阶段可拥有的市场价值: 具备转载 2017-06-19 09:30:16 · 8226 阅读 · 0 评论 -
hadoop2.x_博客推荐
http://www.cnblogs.com/shishanyuan/category/615168.html转载 2016-09-04 21:58:18 · 325 阅读 · 0 评论 -
hadoop2.x_实战案例
转载于 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为http://www.cnblogs.com/shishanyuan 。该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博客边上机实验,课程地址为 https://www.shiyanlou.com/courses转载 2016-09-04 21:55:59 · 1898 阅读 · 0 评论 -
hadoop2.x_64bit编译安装
http://www.cnblogs.com/shishanyuan/p/4164104.html转载 2016-09-04 21:45:51 · 376 阅读 · 0 评论 -
mapreduce去重
我们知道,map处理之后,相同的key的值会被聚合起来,交给一个reduce处理,所以,我们可以把输出的内容作为输出的key,reduce原样输出key就OK,mapreduce的代码如下:// map将输入中的value复制到输出数据的key上,并直接输出 public static class Map extends Mapper { pr原创 2015-11-13 17:45:18 · 731 阅读 · 0 评论 -
MapReduce的输入输出格式原理和优化
原文链接 默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。 默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。 输入文件:文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些转载 2015-11-13 18:29:15 · 518 阅读 · 0 评论 -
MapReduce表连接操作之Map端join
一:背景 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗资源。 二:技术实现 基本思路: (1):需要join的两个文件,转载 2015-11-13 17:18:37 · 407 阅读 · 0 评论 -
流式计算之大数据技术
大数据计算主要有批量计算(hadoop-mapreduce)和流式计算(hadoop-storm)两种形态;流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征 详情请见:http://www.jos.org.cn/html/2014/4/4558.htm#outline_anchor_11原创 2015-11-27 13:12:15 · 1018 阅读 · 0 评论 -
hadoop 10篇博客
http://blog.youkuaiyun.com/matthewei6/article/category/6064754转载 2016-01-19 08:41:14 · 330 阅读 · 0 评论 -
hadoop的几个排序
转载于:http://www.linuxidc.com/Linux/2013-08/88603.htm 1,map阶段的排序 map阶段的排序时对key进行排序,最简单的方式就是将要排序的字段封装成对象,然后这个对象实现WritableComparator接口重写compare这个比较方法,在shuffle阶段就会按照这个定义排序; 2,reduce阶段排序 其实在redu转载 2016-09-12 10:29:55 · 3121 阅读 · 0 评论 -
hadoop2.x学习资料
http://blog.itpub.net/30089851/cid-179583-list-1/转载 2016-09-03 21:59:27 · 490 阅读 · 0 评论 -
zookeeper学习文章借鉴
http://www.cnblogs.com/wuxl360/category/874409.html转载 2017-08-04 10:17:52 · 285 阅读 · 0 评论