
hadoop基础入门系列
Will-kkc
学习是为了更好的生存~
展开
-
Hadoop最常用的工具(SQL on Hadoop):Hive
认识Hive 对十Hadoop的出现,无论是业界还是学术界对其都给予了极高的关注度,Hadoop及其生态圈提供了一个成熟高效的处理海量数据集的解决方案。随着Hadoop越来越流行,一个问题也随之产生:用户如何从现有的数据基础架构转移到Hadoop上,而所谓的数据基础架构大都基于传统关系型数据库(RMDBS )和结构化查询语言(SQL )。这就是Hive出现的原因,Hive的设训目的是为了转载 2017-05-10 16:41:05 · 1175 阅读 · 0 评论 -
mapreduce 的工作机制
本节将会从作业的角度来解释一个作业是如何在Hadoop的MapReduce计算框架下提交、运行等。一个MapReduce作业运行过程如图作业提交用户的MapReduce作业运行时己经设置作业运行时的各种信息,如Mapper类、Reducer类等,并通过job.waitForCompletion方法提交作业,如下图所示。 首先由Job转载 2017-05-09 10:43:36 · 2336 阅读 · 0 评论 -
mapreduce 的过程
从前面的例子我们已经大致了解了一个MapReduce的作业的过程,但是这样是不够的,本节将深入探讨MapReduce的整个过程。从输入到输出 从前而的WordCount可以看出,一个MapReduce作业经过了input, map, combine, reduce.output五个阶段,其中combine阶段并不一定发生,map输出中间结果被分发到 reducer 的过程转载 2017-05-08 22:17:53 · 934 阅读 · 0 评论 -
MapReduce的局限性
从MapReduce 的特点可以看出MapReduce的优点非常明显,但是MapReduce也有其局限性,并不是处理海量数据的普适方法。它的局限性主要体现在以下几点。 MapReduce的执行速度慢。一个普通的MapReduce作业一般在分钟级别完成,复杂的作业或者数据量更大的情况下,也可能花费一小时或者更多,好在离线计算对于时间远没有OLTP那么敏感。所以MapReduce现在不是转载 2017-05-04 17:46:43 · 5039 阅读 · 0 评论 -
MapReduce的计算资源划分
一个MapReduce作业的计算工作都由TaskTracker完成, 用户向Hadoop提交作业,JobTracke:会将该作业拆分为多个任务,并根据心跳信息交由空闲的TaskTracker启动。一个TaskTracker能够启动的任务数量是由TaskTracker配置的任务槽(slot)决定。槽是Hadoop的计算资源的表示模型,Hadoop将各个节点上的多维度资源(CPU、内存等)抽象成一维度转载 2017-05-04 17:31:09 · 2550 阅读 · 0 评论 -
MapReduce作业和任务
MapReduce作业(job)是用户提交的最小单位,而Map/Reduce任务(task)是MapReducev算的缎小单位,如图示。 当用户向Hadoop提交一个MapReduce作业时,JobTracke的作业分解模块会将其分拆为任务交由各个TaskTracker执行,在MapReduce 计算框架中,任务分为两种—Map任务和Reduce了任务。转载 2017-05-04 17:21:36 · 2794 阅读 · 0 评论 -
MapReduce运行环境
与HDFS相同的是,Hadoop的MapReduce计算框架也是主从架构,支撑MapReduce计算框架的是JobTracke:和TaskTracke:两类后台进程,如图JobTrackerJobTracke:在集群中扮演了主的角色,它主要负责任务调度和集群资源监控这两个功能,但并不参与具体的计算。一个Hadoop集群只有一个JobTracker,存在单点故障的可能转载 2017-05-04 17:12:07 · 1357 阅读 · 0 评论 -
mapreduce 编程思想
本文参考书籍------Hadoop海量数据处理 技术详解与项目实战转载 2017-05-02 22:59:27 · 4566 阅读 · 0 评论 -
hadoop基石HDFS
HDFS的设计理念是源于非常朴素的思想:当数据集大小超过单台计算机的存储能力时,就有必要将其进行分区,并且存储到若干台单独的计算机上,而管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distribute filesystem).hadoop 具有一个抽象的文件系统的概念,HDFS只是其中的一个实现。hadoop文件系统接口由Java 抽象类 org.apache.hadoop原创 2017-04-26 16:14:27 · 779 阅读 · 0 评论 -
hadoop 安装前须知
hadoop在安装前,咱们需要知道一下几点。 1.hadoop运行模式 单机(本地)模式:这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。适用于开发过程中运行MapReduce程序,(非常少用的一种模式)。 伪分布式模式原创 2017-04-26 10:36:32 · 423 阅读 · 0 评论 -
Hadoop 架构简介
根据对HDFS架构和MapReduce架构的了解,咱们首先清楚的明白了,HDFS和MapReduce的集群其实都是由一些守护进程组成的,而所有的守护进程和运行他们的节点就构成了Hadoop集群。由上图咱们可以看到NameNode进程和JobTasker进程在一个节点上运行,而DataNode和TaskTracker 在同一个节点上运行。值得注意的是:DataNode和TaskTrack原创 2017-04-26 10:09:02 · 407 阅读 · 0 评论 -
Hadoop MapReduce 架构
构成MapReduce集群为两类节点, JobTeacker和TaskTrasker。 与HDFS架构类似,MapReduce也采用主从(master、slave)的架构。JobTeacker和TaskTrasker分别是两种守护进程,运行在各自的节点上,客户端负责用户作业的提交。JobTeacker数目:1个;作用:负责接受客户端作业提交,调度任务到Tas原创 2017-04-26 09:45:35 · 461 阅读 · 0 评论 -
Hadoop HDFS 架构
构成HDFS 集群的主要是两个节点,并且,以主从(master/slave ) 的模式,或者说是NameNode管理者-DataNode工作者的模式运行,一般来说,都是一个管理者对应多个工作者。还有一个节点,叫做SecondaryNameNode,作为NameNode镜像数据备份。NameNode:数目:1个;作用:存储文件系统的元数据,存储文件与数据块的映射,并提原创 2017-04-26 09:34:49 · 377 阅读 · 0 评论