
hadoop
lionzl
轻财足以聚人,律己足以服人,量宽足以得人,身先足以率人
展开
-
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)分类: 27.Architecture design 22.Big Data Processing2011-08-20 13:08 73453人阅读 评论(48) 收藏 举报mapreducehadoop框架存储hbase目录(?)[-]从hadoop框架与MapReduce转载 2014-09-05 11:35:23 · 762 阅读 · 0 评论 -
Zookeeper 的学习与运用
Zookeeper 的学习与运用2条回复引子?云计算越来越流行的今天,单一机器处理能力已经不能满足我们的需求,不得不采用大量的服务集群。服务集群对外提供服务的过程中,有很多的配置需要随时更新,服务间需要协调工作,这些信息如何推送到各个节点?并且保证信息的一致性和可靠性?众所周知,分布式协调服务很难正确无误的实现,它们很容易在竞争条件和死锁上犯错误。如何在这方面节转载 2016-04-04 11:33:36 · 514 阅读 · 0 评论 -
Hadoop各商业发行版之比较
Hadoop各商业发行版之比较时间 2013-11-07 08:04:54 ITeye-博客原文 http://yangshangchuan.iteye.com/blog/1972846主题 Hadoop Hadoop 的发行版除了社区的 Apache Hadoop 外, Cloudera , Hortonworks ,MapR , EMC , IB转载 2016-06-27 08:59:15 · 967 阅读 · 0 评论 -
HDFS中的通信协议
HDFS中的通信协议通过对org.apache.hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建转载 2016-12-26 19:09:43 · 1565 阅读 · 0 评论 -
Apache Sqoop: Sqoop 2功能亮点一瞥
Apache Sqoop (incubating) was created to efficiently transfer bulk data between Hadoop and external structured datastores, such as RDBMS and data warehouses, because databases are not easily acc转载 2017-02-16 22:26:50 · 589 阅读 · 0 评论 -
实时流Streaming大数据:Storm,Spark和Samza
http://www.jdon.com/bigdata/streaming-big-data-storm-spark.html实时流Streaming大数据:Storm,Spark和Samza 当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。Apache Storm 在Storm中,你设转载 2017-03-21 20:11:17 · 674 阅读 · 0 评论 -
mesos和yarn区别
视频地址:Apache Mesos vs. Hadoop YARN #WhiteboardWalkthrough总结:1、最大的不同点在于他们所采用的scheduler:mesos让framework决定mesos提供的这个资源是否适合该job,从而接受或者拒绝这个资源。而对于yarn来说,决定权在于yarn,是yarn本身(自行替应用程序作主)决定这个资源是否适合该job,对转载 2017-03-12 17:24:01 · 567 阅读 · 0 评论 -
Storm上的Nimbus、Supervisor以及Worker之间的关系
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[-]Storm中各节点介绍1 主控节点和工作节点2 Nimbus3 Supervisor4 Worker5 任务Task6 参考资料Storm的容错机制1 Worker进程死亡2 Nimbus或者Supervisor进程死亡3 ZooKeeper停止1.S转载 2017-03-12 17:38:29 · 567 阅读 · 0 评论 -
Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Str转载 2017-03-12 17:50:10 · 622 阅读 · 0 评论 -
Storm vs. Spark Streaming: 横向对比
Storm 和 Spark Streaming是构建与Hadoop之上的两款优秀的实时流式计算框架,他们各自的特点如何,究竟那款框架适用于你的业务需求?也许本文可以给你一个参考:原文连接:http://xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.htmlStorm转载 2017-03-23 22:50:48 · 448 阅读 · 0 评论 -
浅谈Borg/YARN/Mesos/Torca/Corona一类系统
Borg(来自Google),YARN(来自Apache,属于Hadoop下面的一个分支,开源),Mesos(来自Twitter,开源),Torca(来自腾讯搜搜),Corona(来自Facebook,开源)一类系统被称为资源统一管理系统或者资源统一调度系统,它们是大数据时代的必然产物。概括起来,这类系统设计动机是解决以下两类问题:(1) 提高集群资源利用率在大数据时代,为了存转载 2017-03-23 22:54:05 · 835 阅读 · 0 评论 -
Apache Eagle:分布式实时 Hadoop 数据安全方案
Apache Eagle:分布式实时 Hadoop 数据安全方案oschina 发布于: 2015年10月29日 (5评)分享到: 收藏+8712月12日北京OSC源创会 —— 开源技术的年终盛典 » 摘要:日前,eBay公司隆重宣布正式向开源业界推出实时分布式Hadoop数据安全方案 - Apach转载 2015-11-17 13:24:52 · 752 阅读 · 0 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
与 Hadoop 对比,如何看待 Spark 技术?最近公司邀请来王家林老师来做培训,其浮夸的授课方式略接受不了。其强烈推崇Spark技术,宣称Spark是大数据的未来,同时宣布了Hadoop的死刑。那么与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?-----------补充------------希望大家能将关注点放在Spark上。另Sp转载 2015-10-11 11:40:00 · 1310 阅读 · 0 评论 -
知乎spark与hadoop讨论
与 Hadoop 对比,如何看待 Spark 技术?修改最近公司邀请来王家林老师来做培训,其浮夸的授课方式略接受不了。其强烈推崇Spark技术,宣称Spark是大数据的未来,同时宣布了Hadoop的死刑。那么与Hadoop相比,Spark技术如何?现工业界大数据技术都在使用何种技术?-----------补充------------希望大家能将关注点放在Spark上。另转载 2015-09-22 16:34:58 · 2406 阅读 · 0 评论 -
MapReduce 编程模型在日志分析方面的应用
MapReduce 编程模型在日志分析方面的应用from:http://www.ibm.com/developerworks/cn/java/java-lo-mapreduce/index.html简介日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将转载 2014-09-05 14:20:18 · 586 阅读 · 0 评论 -
使用python构建基于hadoop的mapreduce日志分析平台
使用python构建基于hadoop的mapreduce日志分析平台2013-12-17 09:52 rfyiamcool 51CTO博客 字号:T | T流量比较大的日志要是直接写入Hadoop对Namenode负载过大,所以入库前合并,可以把各个节点的日志凑并成一个文件写入HDFS。 根据情况定期合成,写入到hdfs里面。AD:2014WOT全球软件技术转载 2014-09-05 14:24:27 · 1045 阅读 · 0 评论 -
Hadoop MapReduce原理
Hadoop MapReduce原理 先看一段代码: package com.abc;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configurati转载 2014-09-05 14:25:30 · 606 阅读 · 0 评论 -
MapReduce原理
MapReduce原理 2011-11-25 11:18:56分类: 云计算1.什么是MapReduce? MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 开发的一个针对大规模群组中的海量数据处理的分布式编程模型。MapReduce实现了两个功能。Map把一个函数应用于集合中的所有成员,然后返回转载 2014-09-05 14:28:36 · 621 阅读 · 0 评论 -
MapReduce工作原理图文详解
MapReduce工作原理图文详解分类: 技术2012-11-20 15:25 7918人阅读 评论(1) 收藏 举报前言:前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟转载 2014-09-05 14:27:03 · 555 阅读 · 0 评论 -
详细探究Spark的shuffle实现
详细探究Spark的shuffle实现分类: spark2014-03-30 23:20 5451人阅读 评论(2) 收藏 举报目录(?)[+]Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接转载 2015-09-22 17:01:17 · 534 阅读 · 0 评论 -
分布式服务的Trace——Google Dapper & Twitter Zipkin
分布式服务的Trace——Google Dapper & Twitter Zipkin时间 2014-03-23 08:32:53 Leoncom原文 http://leoncom.org/?p=650847主题 分布式系统 Nosql对于分布式在线服务,一个请求需要经过系统中多个模块,上百台机器的协作完成单次请求,典型场景就是Search Engine的一转载 2015-11-10 13:54:08 · 563 阅读 · 0 评论 -
微软Dryad
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/Dryad的论文是微软早在2007年就发布的,Tez的核心思想来源于Dryad,差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的,于是顺便追本溯源,学习了一下转载 2015-09-22 11:38:51 · 622 阅读 · 0 评论 -
Hadoop与Spark等数据处理系统哪个是最好的?
如今我们拥有广泛的数据处理系统选择:Hadoop, Spark, Naiad, PowerGraph, Metis 和 GraphChi 等,这些不同框架的最佳性能其实高度依赖于高阶的工作流程,其次,没有某个单个系统总是会比其他系统性能高,也就是说,几乎每个系统都有自己特定场景下的最好性能表现。所以,选择一个数据处理系统应该将其工作负载贴近其最佳设计点,但是我们很容易忽视这点,导致宗教式的转载 2015-09-22 12:16:38 · 1101 阅读 · 0 评论 -
Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Streami转载 2015-09-22 11:53:10 · 732 阅读 · 0 评论 -
Apache YARN/Mesos与Google Borg差距多远?
Google于2013年和2015年分别公开了它的实验和生产环境中使用的数据中心资源管理系统Omega和Borg,其中Omega是一个实验产品,由几个实习生博士做出了原型, 比较新颖地提出了share state架构,是一种非常理想的架构,但个人认为离完全替换Borg还有一段距离,即使替换,在短时间内仍然不能完全替换,因此本文不会过多讨论(关于Omega的细节,也可参考我的这篇文章:“解析转载 2017-03-23 23:06:14 · 556 阅读 · 0 评论