
hadoop
qiruiduni
这个作者很懒,什么都没留下…
展开
-
HDFS 初识
当一个数据集在一个物理机上增长得容不下的时候,就需要把它分区存放到多个独立的机器上,这就要通过网络来管理分布在这些机器上的数据,像这样通过网络来管理数据的文件系统称之为分布式文件系统(distributed filesystems)。Hadoop中的分布式文件系统为HDFS,其设计用来存储较大的文件、通过流的方式访问数据,在普通的商业硬件集群上运行。存储文件较大:通常上百GB,或者上百TB翻译 2015-08-27 15:56:15 · 1650 阅读 · 0 评论 -
MapReduce 初识
MapReduce是一种中大数据处理编程模型,它的思想来源于Google的几篇论文,可以把它理解为:把一堆混乱的数据按照某种特征归纳起来,然后处理并得到结果。Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取数据的特征。经过MapReduce的shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们做进一步的处理,便得到了翻译 2015-08-29 06:59:41 · 749 阅读 · 0 评论 -
YARN 初识
Apache YARN (Yet Another Resource Negotiator,另一个资源协调者)是Hadoop的集群资源管理系统,它从Hadoop 2.0版本开始被引入,主要是为了改进MapReduce的实现,可以很好地支持其它的分布式计算模式。YARN提供了请求和使用集群资源的API,但这些API通常不能由用户代码直接使用,而是使用由分布式集群框架提供的更高级的API,这些框架构翻译 2015-08-30 19:00:07 · 1474 阅读 · 0 评论 -
There are 0 datanode(s) running and no node(s) are excluded in this operation
在hive中,创建表后,使用load data命令加载数据到表中,出现“There are 0 datanode(s) running and no node(s) are excluded in this operation”错误,于是使用jps命令查看datanode节点是否都已经启动,发现都是正常启动 的,然后又使用“hdfs dfsadmin -report”命令查看节点的报告信息,发现没原创 2015-12-13 09:18:23 · 14550 阅读 · 2 评论 -
MapReduce 的Types 和 Formats
MapReduce有一种简单的数据处理模型:map和reduce的输入和输出都是key-value键值对。下面来看下各种格式的数据在该模型中的使用。MapReduce TypesHadoop MapReduce的map函数和reduce函数一般具有以下形式:map:(K1, V1) --> list (K2, V2)reduce:(K2, list(V2)) --> lis翻译 2015-09-15 13:17:25 · 487 阅读 · 0 评论 -
MapReduce 的特性
Counters也许常常你会想知道正在进行分析的数据的运行情况,例如,在统计无效record时,发现无效的record占整个数据集的比例比较高,你也许会检查为什么会有这么多的记录被标记为无效——也许是程序中的一个bug,或者是数据质量的问题,确实有许多无效的记录。Counter是一个比较好的途径,用于收集job的统计信息,无论是质量控制,还是应用层面的数据统计。同时它还有助于问题的诊断。如翻译 2015-09-17 16:47:18 · 1424 阅读 · 0 评论 -
Avro, Protocol Buffers 、Thrift的区别
http://martin.kleppmann.com/2012/12/05/schema-evolution-in-avro-protocol-buffers-thrift.html当想要数据, 比如对象或其他类型的, 存到文件或是通过网络传输, 需要面对的问题是序列化问题 对于序列化, 当然各个语言都提供相应的包, 比如, Java serialization, R转载 2015-10-19 15:00:58 · 1119 阅读 · 0 评论 -
MapReduce -- task 的执行
下面来看下,MapReduce用户对task执行的更多控制The Task Execution EnvironmentHadoop为map task和reduce task提供了运行环境信息。例如,一个map task 可以知道它正在处理的文件的名称,和一个map或reduce task可以找出已经尝试的次数、下表中的属性都可以在job的配置信息中访问到,在老的MapReduce API中翻译 2015-09-11 16:18:59 · 1513 阅读 · 0 评论 -
MapReduce 的工作机制
解剖MapReduce job的运行机制你可以在一个Job对象上调用submit()方法来运行一个MapReduce Job(或者也可用调用waitForCompletion()方法,如果job还没有提交,它可以提交job后等待job的完成),但是这些方法的调用在后台隐藏了大量的处理细节。下图展示了MapReduce Job运行的整个过程:从较高层次来看,可以分为5个独立的实体翻译 2015-09-05 18:46:37 · 739 阅读 · 0 评论 -
MapReduce Shuffle和Sort的运行机制
MapReduce 保证对每个reduce的输入都是已排序的,系统执行排序的过程——传输map的输出到reduce作为输入——被称作“shuffle”(译为“洗牌”)。在许多方面,Shuffle是MapReduce的心脏和发生“神奇”的地方。The Map Side在map函数开始产生输出时,并不是简单的写到磁盘上,出于效率的原因而是先写到内存的缓冲区,并做一些预排序处理,最后才写到磁翻译 2015-09-09 16:46:33 · 3527 阅读 · 0 评论 -
MapReduce的容错机制
Failures在现实世界中,难免遇到用户代码的错误、进程崩溃、机器宕机等情况。使用Hadoop的一个好处是它有能力处理这些失败,使你的job能够成功完成。我们需要考虑以下实体的失败:task、application master、node manager 、resource manager。Task Failure考虑第一种情况task失败。最常见的task 失败是在map或翻译 2015-09-08 11:24:27 · 6985 阅读 · 0 评论 -
HDFS Federation
1. 当前HDFS架构和功能概述我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/存储管理服务(block/storage management)。1.1 命名空间管理HDFS的命名空间包含目录、文件和块。命名空间管理:是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、转载 2015-08-28 07:22:01 · 592 阅读 · 0 评论 -
HDFS集中式的缓存管理原理与代码剖析
Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management)。这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理、架构和代码剖析三个角度来探讨这一功能。主要解决了哪些问题用户可以根据自己的逻辑指定一些经常被使用的数据或者高优先级任务对应的数据,让他们常驻内存而不被转载 2015-08-27 16:53:15 · 717 阅读 · 0 评论 -
什么是大数据(Big Data)?
什么是大数据?可以从四个方面描述:数据量(volume)、处理速度(velocity)、多样性(variety)、真实性(veracity),简称4V。Volume(数据量)数据量大是大数据的比较明显的特征。每天的数据增长块。Velocity(速度)要求数据的处理速度比较快,能够及时快速的响应,并不能因为数据量大,响应速度就慢下来。Variety(多样性)数据的来源原创 2016-01-08 11:09:52 · 6786 阅读 · 0 评论