
Hadoop
文章平均质量分 79
Chuck_lee
网站分析-hadooper-pythoner
展开
-
Hadoop-IPC模型
IPC实现RPC的一种方法,具有快速、简单的特点。 它不像Sun公司提供的标准RPC包,基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。使用模型采用客户/服务器模型Se转载 2014-07-29 09:32:52 · 725 阅读 · 0 评论 -
hadoop深入研究(一)——hdfs介绍
hdfs设计原则1.非常大的文件:这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据2.流式数据访问:基于一次写,多次读。3.商用硬件: hdfs的高可用是用软件来解决,因此不需要昂贵的硬件来保障高可用性,各个生产商售卖的pc或者虚拟机即可。hdfs不适用的场景1.低延迟的数据访问 hdf原创 2014-07-31 14:51:09 · 696 阅读 · 0 评论 -
HDFS小文件问题及解决方案
1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资料[1]原创 2014-08-06 09:48:59 · 644 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原原创 2014-08-07 19:19:53 · 221 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用者,转载 2014-09-18 09:17:05 · 693 阅读 · 0 评论 -
MapReduce 计数器简介
在许多情况下,一个用户需要了解待分析的数据,尽管这并非所要执行的分析任务 的核心内容。以统计数据集中无效记录数目的任务为例,如果发现无效记录的比例 相当高,那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在 缺陷,还是数据集质量确实很低,包含大量无效记录?如果确定是数据集的质量问 题,则可能需要扩大数据集的规模,以增大有效记录的比例,从而进行有意义的 分析。 计数器是一种收集原创 2014-08-11 15:23:57 · 840 阅读 · 0 评论 -
基于计算机资源分析hadoop的默认counter
前言由于项目中,需要统计每个业务组使用的计算机资源,如cpu,内存,io读写,网络流量。所以需要阅读源码查看hadoop的默认counter。MapReduce Counter可以观察MapReduce job运行期的一些细节数据,Counter有"组group"的概念,用于表示逻辑上相同范围的所有数值。 cpu 如何衡量mapreduce的任务的计算量呢,如果按照任务的运行时原创 2014-08-11 15:39:47 · 757 阅读 · 0 评论 -
HadoopDoctor—TDW MapReduce诊断系统
HadoopDoctor—TDW MapReduce诊断系统摘要 : TDW是基于Hadoop生态圈研发的大数据处理平台,MapReduce计算引擎在TDW平台中承担了所有的离线数据计算,是TDW最重要的底层支撑平台之一。在TDW平台中,除了MR程序会生成MapReduce作业外,被广泛应用的Hive、tPig等 ...前言TDW是基于Hadoop生态圈研发的大转载 2014-08-16 18:19:24 · 948 阅读 · 0 评论 -
Hadoop Streaming 常见错误(不断更新ing)
1、streaming默认的情况下,mapper和reducer的返回值不是0,被认为异常任务,将被再次执行,默认尝试4次都不是0,整个job都将失败[plain] view plaincopyjava.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess fail原创 2014-11-11 22:48:59 · 2579 阅读 · 1 评论 -
别老扯什么Hadoop了,你的数据根本不够大
“你有多少大数据和Hadoop的经验?”他们问我。我一直在用Hadoop,但很少处理几TB以上的任务。我基本上只是一个大数据新手——知道概念,写过代码,但是没有大规模经验。 接下来他们会问:“你能用Hadoop做简单的group by和sum操作吗?”我当然会,但我会说需要看看具体文件格式。 他们给我一个U盘,里面有所有的数据,600MB,对,他们所有的数据。不知道为什么,原创 2014-12-04 13:41:39 · 742 阅读 · 0 评论 -
Hadoop-包的功能分析
PackageDependencestool提供一些命令行工具,如DistCp,archivemapreduceHadoop的Map/Reduce实现filecache提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度f原创 2014-07-29 09:34:30 · 1096 阅读 · 0 评论 -
LZOP解压查看文件
我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。 之前要查看已经put到HDFS的转载 2014-07-25 17:47:14 · 3891 阅读 · 0 评论 -
lzop如何查看文件大小
我们的HDFS中有一部分落地数据是用LZO格式来压缩的(另一部分采用gz压缩的RCFile,MapReduce中间结果采用snappy压缩)。第一是因为它的压缩比和压缩/解压速度综合下来比较令人满意,第二是它只需要少量effort就能支持可切分(生成LZO文件后跑单机或分布式建索引程序),这样能充分利用MapReduce分而治之的编程思想和数据本地性。 之前要查看已经put到HDFS的原创 2014-07-25 17:41:32 · 455 阅读 · 0 评论 -
hadooper-hadoop相关术语
HadoopHadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-t原创 2014-02-27 18:09:30 · 1083 阅读 · 0 评论 -
hadooper-Hadoop杂记
namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式化,启动时自动创建同一个原创 2014-02-27 17:59:08 · 769 阅读 · 0 评论 -
hadooper-hadoop原理-让你一目了然于心
关于hadoop的原理,可以去很多地方普及,这里不再啰嗦,用图说话。hadoop内部结构:hadoop执行map-reduce流程图:原创 2014-02-28 15:51:03 · 1272 阅读 · 0 评论 -
Hadooper-Map/Reduce编程模型实现海量数据处理—数字求和
Map/Reduce编程模型型的原理是:利用一个输入key/value pair 集合来产生一个输出的key/value pair 集合。MapReduce库的用户用两个函数表达这个计算:Map 和Reduce。Hadoop Map/Reduce实现主要是通过继承Mapper和Reducer两个抽象类,并实现map和reduce两个方法实现的。Mapper原创 2014-02-28 09:50:46 · 1075 阅读 · 0 评论 -
hadooper-深入hadoop的调度器
Hadoop有两个大版本0.20.x,1.x通常为hadoop 1版本,运行环境依赖JobTracker和TaskTracker,运行资源通过作业表示模型MapTask和ReduceTask来组成;运行资源通过槽位Slot来表示。0.23.x,2.x称之为hadoop 2版本,在开发模型上类似1,都有新旧两套MapReduce API来完成;针对JobTracker的职责有YARN来管理;原创 2014-03-24 18:48:34 · 892 阅读 · 0 评论 -
hadooper-关于Hadoop的shuffle
我们知道每个reduce task输入的key都是按照key排序的。 但是每个map的输出只是简单的key-value而非key-valuelist,所以洗牌的工作就是将map输出转化为reducer的输入的过程。 在map结束之后shuffle要做的事情: map的输出不是简单的写入本地文件,而是更多的利用内存缓存和预排序工作,以提高效率。i原创 2014-02-28 15:35:42 · 654 阅读 · 0 评论 -
hadooper-Hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的按照key进行排序,即key值相同的一串存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次是map端将多个spill 按照分区和分区内的key进行me转载 2014-02-28 15:31:49 · 721 阅读 · 0 评论 -
hadooper-MapReduce和并行数据库,朋友还是敌人?
在 2010年1月的ACM上,有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》,另一篇文章是Michael Stonebraker、Daniel Abadi、 David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexand转载 2014-02-27 18:04:10 · 1061 阅读 · 0 评论 -
hadooper-MapReduce基础
函数式编程概念MapReduce 程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没 法扩展到大规模集群上去了(数百或数千个节点),用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。实际上,所有在MapReduce上的数据元素都是不可变的,这就意味着它们转载 2014-02-27 18:02:20 · 743 阅读 · 0 评论 -
hadooper-Hadoop分布式文件系统
Hadoop介绍Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fa转载 2014-02-27 18:00:28 · 740 阅读 · 0 评论 -
利用HCatalog管理元数据
在HDFS和HBase之间,Hadoop提供了许多保存数据的方法,使得数据可以被多个应用程序访问。但将数据集中存储并提供给多个应用程序访问,这样做产生了一系列新的挑战,包括以下几点:如何分享数据,才能够使数据以用户想要的任何形式来保存和处理?如何能够将不同的Hadoop应用程序和其他系统集成?访问数据的常见方法之一是通过表抽象,该方法通常用于访问关系型数据库,并且为许多开发者所熟知(和原创 2015-02-04 13:07:09 · 1760 阅读 · 0 评论