hadoop大数据学习
lisuo1234
骨灰级程序员
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ZooKeeper原理及使用
ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介绍ZooKeeper提供的Client API的使用,第三部分介绍一些ZooKeeper典型的应用场景。转载 2016-09-10 00:35:12 · 300 阅读 · 0 评论 -
Hadoop学习:HDFS 机架感知
client 向 Active NN 发送写请求时,NN为这些数据分配DN地址,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是,把副本分别放在不同机架,甚至不同IDC,这样可以防止整个机架、甚至整个IDC崩溃带来的错误,但是这样文件写必须在多个机架之间、甚至IDC之间传输,增加了副本写的代价,是否有较优的方案来解决这个问题呢?目录:原创 2017-02-15 12:46:35 · 616 阅读 · 0 评论 -
Hadoop官方文档翻译——MapReduce Tutorial
MapReduce Tutorial(个人指导)Purpose(目的)Prerequisites(必备条件)Overview(综述)Inputs and Outputs(输入输出)MapReduce - User Interfaces(用户接口)Payload(有效负载)MapperReducerPartitionerCounterJob Configuration(作业配置)原创 2017-02-15 00:13:00 · 583 阅读 · 0 评论 -
Hadoop官方文档翻译——HDFS Architecture 2.7.3
HDFS Architecture(HDFS 架构)Introduction(简介)Assumptions and Goals(假设和目标)Hardware Failure(硬件失效是常态)Streaming Data Access(支持流式访问)Large Data Sets(大数据集)Simple Coherency Model(简单一致性模型)“Moving Comp原创 2017-02-15 00:10:45 · 814 阅读 · 0 评论 -
Hadoop官方文档翻译——YARN Architecture(2.7.3)
The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separate daemons. The idea is to have a global ResourceManager (RM) and per-ap原创 2017-02-15 00:08:44 · 1139 阅读 · 0 评论 -
Hadoop官方文档翻译—— YARN ResourceManager High Availability 2.7.3
ResourceManager High Availability (RM高可用)Introduction(简介)Architecture(架构)RM Failover(RM 故障切换)Recovering prevous active-RM’s state(恢复之前活动的RM的状态)Deployment(部署)Configurations(原创 2017-02-15 00:06:09 · 627 阅读 · 0 评论 -
Hadoop面试
作者:呼呼链接:https://zhuanlan.zhihu.com/p/24946274来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。1:Hadoop VS Spark 2.Hadoop实时应用有哪些?Hadoop,众所周知的Apache Hadoop,是一个开放源代码软件平台,用于大容量数据的可扩展和分布式计算。它提供对数字平原创 2017-02-21 13:00:52 · 475 阅读 · 0 评论 -
Hadoop中Map端shuffle过程及源码解析
这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本不可能明白Shuffle的过程,因为它与事实相差挺多,细节也是错乱的。后面我会具体描述Shuffle的事实情况,所以这里你只要清楚Shuffle的大致范围就成-怎样把map task的输出结果有效地传送到reduce端。也可以这样理解, Shuffle描述着数据从map task输出到reduce task输入的这段过程。原创 2017-02-08 23:18:24 · 781 阅读 · 0 评论 -
深入理解yarn
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2016-09-06 20:02:33 · 1705 阅读 · 0 评论 -
hadoop yarn 的原理
1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。转载 2016-09-06 19:45:05 · 342 阅读 · 0 评论 -
zookeeper原理二
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee转载 2016-09-06 00:20:09 · 261 阅读 · 0 评论 -
zookeeper原理
ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介绍ZooKeeper提供的Client API的使用,第三部分介绍一些ZooKeeper典型的应用场景。转载 2016-09-06 00:18:32 · 262 阅读 · 0 评论 -
hadoop-2.6分布式集群环境搭建
1.背景 上篇记录了hadoop的核心配置和zookeeper的基本配置,这篇将我的配置记录下,包括启动过程的总结!简单的分布式环境搭建了四遍,也算是懂些了皮毛,总算是可以启动了!我的运行环境这里不在详述。还是声明一点,所有的均是在root用户下完成的!2.Hadoop 配置 2.1 etc/hadoop 目录下 先进入 该目录下转载 2016-09-04 22:34:10 · 387 阅读 · 0 评论 -
zookeeper3.4.6集群部署
在安装Zookeeper之前,首先需要确保的就是主机名称(可选)、hosts都已经更改,并且JDK成功安装。 1、安装Zookeeper使用命令“tar -zxvf”命令将gz压缩文件解压。笔者Zookeeper的安装目录为:“/home/hadoop”,解压后的Hadoop目录为/home/hadoop/zookeeper-3.4.6”,最好确保Master、Slave1转载 2016-09-04 19:11:24 · 269 阅读 · 0 评论 -
hdfs原理
在配置hbase集群将 hdfs 挂接到其它镜像盘时,有不少困惑的地方,结合以前的资料再次学习; 大数据底层技术的三大基石起源于Google在2006年之前的三篇论文GFS、Map-Reduce、 Bigtable,其中GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生,Bigtable催生了NoSQL这个崭新的数据库领域,由于map-Reduce处理框架高延时的缺陷转载 2016-09-04 15:55:38 · 547 阅读 · 0 评论 -
hdfs 机架感知
client 向 Active NN 发送写请求时,NN为这些数据分配DN地址,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是,把副本分别放在不同机架,甚至不同IDC,这样可以防止整个机架、甚至整个IDC崩溃带来的错误,但是这样文件写必须在多个机架之间、甚至IDC之间传输,增加了副本写的代价,是否有较优的方案来解决这个问题呢?目录:转载 2016-09-04 15:53:59 · 754 阅读 · 0 评论 -
hadoop HA原理
hadoop2.X ha 原理:hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下:基本原理就是用2N+1台 JN 存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,数据不会丢失了。当然这个算法所能容忍的是最多有转载 2016-09-04 15:50:30 · 820 阅读 · 0 评论 -
Hadoop生态系统介绍
首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、Hbase、Oozie、Mahout、Pig、Flume、Sqoop。Hadoop的起源Doug Cutting是Hadoop之父 ,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的转载 2017-02-15 19:00:11 · 482 阅读 · 0 评论
分享