
Hadoop
风隐才藏
这个作者很懒,什么都没留下…
展开
-
Hadoop中的RPC实现——服务器端通信组件
在前一篇博文中,我已经详细的讲解了Hadoop RPC中客户端通信组件的实现,与之对应的就会有一套服务器端通信组件的实现。Hadoop RPC的服务器端采用了多线程的设计,即服务器会开启多个处理器(后天线程)来处理所有客户端发送过来的RPC调用请求,所以在服务器端主要包括三个组件:监听器(Listener)、处理器(多个Handler)、响应发送器(Responder)。接下来我将主要围绕这三大组转载 2013-06-10 11:30:26 · 1059 阅读 · 0 评论 -
Impala各版本新特性
自0.3之后的重点新特性1.0· 支持ALTER TABLE。· 支持通过Hints指定join策略。支持的Hints:o [broadcast]:broadcast join策略(将小表放到所有节点上与大表进行分片join)o [shuffle]: partitionedjoin策略(分片join)· 支持原创 2013-05-24 13:56:29 · 3612 阅读 · 0 评论 -
Impala查询流程日志分析
UHP博客文章地址:http://yuntai.1kapp.com/?p=1060原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8563355物理环境主节点10.28.171.33处理节点110.28.171.40处理节点2原创 2013-02-01 15:38:55 · 9750 阅读 · 3 评论 -
Impala查询过程详解
UHP博客文章地址:http://yuntai.1kapp.com/?p=1043原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8562844流程流程图 用户通过ODBC/Beeswax Thrift API提交query到某个impalad。Impalad的Qu原创 2013-02-01 13:52:09 · 10857 阅读 · 0 评论 -
Hive与并行数据仓库的体系结构比较
原文链接:http://db3.iteye.com/blog/807787最近分析和比较了Hive和并行数据仓库的架构,本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点: 1. 数据以HDFS文件的形式存储,从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外,从而解耦合元转载 2013-01-31 11:33:45 · 1108 阅读 · 0 评论 -
Hive 随谈(六)– Hive 的扩展特性
原文链接:http://www.alidata.org/archives/604Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利转载 2013-01-06 14:36:50 · 869 阅读 · 0 评论 -
Hive原理与不足
UHP博客文章地址:http://yuntai.1kapp.com/?p=1035原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8560059架构UI:用户提交查询请求与获得查询结果。包括三个接口:命令行(CLI)、Web GUI(Hue)和客户端。Driver:接受查询请求与返回查原创 2013-01-31 15:48:44 · 6703 阅读 · 0 评论 -
Hive 随谈(五)– Hive 优化
原文链接:http://www.alidata.org/archives/595Hive 针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(Column Pruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询: SELECT a,b FROM T WHERE e 其中,T 包转载 2013-01-06 14:31:06 · 934 阅读 · 0 评论 -
Hive 随谈(四)– Hive QL
原文链接:http://www.alidata.org/archives/581Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] T转载 2013-01-06 14:10:24 · 838 阅读 · 0 评论 -
Hive 随谈(三)– Hive 和数据库的异同
原文链接:http://www.alidata.org/archives/551摘要:由于 Hive 采用了 SQL 的查询语言 HQL,因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而转载 2013-01-06 11:32:39 · 655 阅读 · 0 评论 -
Hive 随谈(一)– Hive 入门
原文链接:http://www.alidata.org/archives/481Hive 是什么在接触一个新的事物首先要回到的问题是:这是什么?这里引用 Hive wiki 上的介绍:Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enabl转载 2013-01-06 11:23:47 · 618 阅读 · 0 评论 -
Hive 随谈(二)– Hive 结构
原文链接:http://www.alidata.org/archives/499Hive 体系结构Hive 的结构如图所示,主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用转载 2013-01-06 09:54:55 · 689 阅读 · 0 评论 -
Impala介绍博客相关问答
UHP博客文章地址:http://yuntai.1kapp.com/?p=875原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8433492原博客文章地址:http://blog.cloudera.com/blog/2012/10/cloudera-impala-real-time-queries-翻译 2012-12-26 10:00:07 · 2259 阅读 · 0 评论 -
Impala介绍(Cloudera Impala Real-Time Queries in Apache Hadoop, For Real)
UHP博客文章地址:http://yuntai.1kapp.com/?p=854原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8433492原文链接:http://blog.cloudera.com/blog/2012/10/cloudera-impala-real-time-queries-in-翻译 2012-12-25 14:56:09 · 4444 阅读 · 0 评论 -
Impala重点问题列表
Impala重点问题列表(截止到1.01)从目前的情况来看,impala的稳定性和易用性还有待提高,在生产环境中部署还存在比较大的风险。未解决:· impala-shell命令不兼容Python 2.4Impala 1.0.1中的impala-shell命令与Python 2.4不兼容, 后者是Red Hat 5的默认Python.Impala 1.0中的im原创 2013-06-14 14:39:47 · 19829 阅读 · 0 评论 -
YARN ResourceManager failover机制
UHP博客文章地址:http://yuntai.1kapp.com/?p=546原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8283510RM(ResourceManager)每次在启动之前都会进行初始化并执行一次recovery操作,然后才启动RM,对外提供服务。RM启动流程原创 2012-12-11 17:36:10 · 7602 阅读 · 0 评论 -
Hadoop中的RPC实现——客户端通信组件
在Hadoop中为了方便集群中各个组件之间的通信,它采用了RPC,当然为了提高组件之间的通信效率以及考虑到组件自身的负载等情况,Hadoop在其内部实现了一个基于IPC模型的RPC。关于这个RPC组件的整体情况我已绍经在前面的博文中介绍过了。而在本文,我将结合源代码详细地介绍它在客户端的实现。 先来看看与RPC客户端相关联的一些类吧!1.Client类转载 2013-06-10 11:28:57 · 972 阅读 · 0 评论 -
Hadoop中的RPC实现(概述)
Hadoop作为一个存储与服务的基础性平台,同时它的内部有采用了master/slave架构,那么其内部通信和与客户端的交互就是必不可少的了。Hadoop在实现时抛弃了JDK自带的一个RPC实现——RMI,而自己基于IPC模型实现了一个高效的轻量级RPC。整体结构 在IPC包中,最重要的3个类是ServerC,lient和RPC,它们具有层次化的结构。 1.R转载 2013-06-10 11:26:56 · 928 阅读 · 0 评论 -
Hadoop学习总结之五:Hadoop的运行痕迹
原文链接:http://www.cnblogs.com/forfuture1978/archive/2010/11/23/1884967.html在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。转载 2012-12-20 20:26:38 · 914 阅读 · 0 评论 -
MapReduce源码分析总结
原文链接:http://blog.youkuaiyun.com/HEYUTAO007/article/details/5725379参考: 1 caibinbupt的源代码分析http://caibinbupt.javaeye.com2 coderplay的avaeye http://coderplay.javaeye.com/blog/295097http://coderplay转载 2012-12-28 14:07:15 · 797 阅读 · 0 评论 -
Hadoop学习总结之二:HDFS读写过程解析
原文链接:http://www.cnblogs.com/forfuture1978/archive/2010/11/10/1874222.html一、文件的打开1.1、客户端HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为:public FSDat转载 2012-12-20 20:20:03 · 786 阅读 · 0 评论 -
Hadoop 学习总结之一:HDFS简介
原文链接:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存转载 2012-12-20 19:57:03 · 743 阅读 · 0 评论 -
Hadoop学习总结之三:Map-Reduce入门
原文链接:http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.html1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-转载 2012-12-20 20:22:18 · 583 阅读 · 0 评论 -
Hadoop学习总结之四:Map-Reduce的过程解析
原文链接:http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882268.html一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob转载 2012-12-20 20:24:11 · 945 阅读 · 0 评论 -
Google Dremel 原理 - 如何能3秒分析1PB
原文链接:http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有转载 2013-01-31 11:37:43 · 1129 阅读 · 0 评论 -
YARN Framework(MapReduce 2.0 in Apache Hadoop 0.23)
UHP博客文章地址:http://yuntai.1kapp.com/?p=600原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8283371原文链接:http://blog.cloudera.com/blog/2012/02/mapreduce-2-0-in-hadoop-0-23/ In翻译 2012-12-11 17:17:21 · 2721 阅读 · 0 评论 -
MapReduce之Join操作(4)
半连接(semijoin) 之前已经讨论了reduce-side join和map-side join(replicated join),第一种较通用但效率不高,第二种对于表的大小有需求。然而即使存在表的大小不对称的情况,在许多情况下较小的表仍然不能存到内存中。这里讨论一下半连接(semijoin),这是传统的关系型数据库中的概念。它对应这样一种常见需求:用户只关心合并之后的某些转载 2013-02-05 14:21:39 · 834 阅读 · 0 评论 -
MapReduce之Join操作(1)
原文链接:http://bjyjtdj.iteye.com/blog/1453410在关系型数据库中 join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要连接从不同的数据源中获取到的数据。不同于传统的单机模式,在分布式存储的下采用 MapReduce 编程模型,也有相应的处理措施和优化方法。本文对 Hado转载 2013-02-05 14:17:35 · 921 阅读 · 0 评论 -
YARN 框架源码分析
UHP博客文章地址:http://yuntai.1kapp.com/?p=652原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8348839ResourceManager管理集群资源,创建时需要一个Store存储其信息。Store· 管理和存储RM状态接口,包含以下两个子接原创 2012-12-20 10:51:55 · 4558 阅读 · 0 评论 -
MapReduce之Join操作(2)
原文链接:http://bjyjtdj.iteye.com/blog/1453451上一篇介绍了 Repartition Join 的基本思想,实践出真知,具体的实现中总是存在各种细节问题。下面我们通过具体的源码分析来加深理解。本文分析的是 Hadoop-0.20.2 版本的 datajoin 代码,其它版本也许会有变化,这里暂且不论。参看源码目录下,共实现有 7 个类,分别是:转载 2013-02-05 14:18:39 · 681 阅读 · 0 评论 -
hadoop core fs包源码概要分析(hadoop 0.20.2 cdh3u3)
UHP博客文章地址:http://yuntai.1kapp.com/?p=440原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8090130fsBlockLocation包含block长度,所在datanode列表和block在file中的offset信息。BufferedFSInputSt原创 2012-10-19 15:44:22 · 2713 阅读 · 0 评论 -
TaskTracker LaunchTask过程与CleanTask过程
UHP博客文章地址:http://yuntai.1kapp.com/?p=525原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8283534LaunchTask执行流程TaskTracker.run()->offerService()TaskTracker实现了Runnabl原创 2012-12-11 17:38:08 · 2050 阅读 · 0 评论 -
hadoop 0.23 状态机框架
UHP博客文章地址:http://yuntai.1kapp.com/?p=646原创文章,转载请注明出处:http://blog.youkuaiyun.com/wind5shy/article/details/8332017hadoop 0.23中使用了基于事件驱动机制的异步编程模型。每个对象都是一个有限状态机,有相应的事件处理器(EventHandler),处理器处理对应的事件类型。原创 2012-12-19 15:16:32 · 2326 阅读 · 0 评论 -
MapReduce之Join操作(3)
原文链接:http://bjyjtdj.iteye.com/blog/1454803 本文讲述如何在map端完成join操作。之前我们提到了reduce-join,这种方法的灵活性不错,也是理所当然地能够想到的方法;但这种方法存在的一个最大的问题是性能。大量的中间数据需要从map节点通过网络发送到reduce节点,因而效率比较低。实际上,两表的join操作中很多都是无用的数据。现在考转载 2013-02-05 14:20:58 · 754 阅读 · 0 评论 -
Hadoop 2.2.0正式版特性分析
Apache官网的说明:15 October, 2013: Release 2.2.0 availableApache Hadoop2.2.0 is the GA release of Apache Hadoop 2.x.Users areencouraged to immediately move to 2.2.0 since this release is significantl原创 2013-11-07 09:08:39 · 4475 阅读 · 0 评论