
开源软件
文章平均质量分 78
smartzxy
目前还是学生~梦想能让全世界都记住我的名字!当然是靠我的技术实力……嘿嘿
展开
-
挖挖Hive的代码(一)——UDF
系列第一篇,先扯扯。Hive的东西太多了,想一篇文章介绍完也是可以的,但是没有意义。所以我会分几篇写下我的“挖掘”经历,当然了,我也没打算把Hive所有的内容都挖一遍,只是记录下我感兴趣的、没见别人挖过的…… Hive对查询语句的解析过程,在淘宝数据平台的官方原创 2011-08-28 21:03:55 · 4949 阅读 · 2 评论 -
挖挖Hive的代码(二)——生成MapReduce(上)
Hive在做完语义分析后,会把查询语句的逻辑转化成一个由operator构成的DAG。但是这个DAG不能完全对应于Hadoop的计算框架,还需要根据Hadoop的框架要求,进一步的切割剪裁才行,就是封装成对应的Task对象。 切割这个DAG的逻辑在SemanticAnalyse.java中的genMapRedTasks方法里,核心代码如下: Map opRules = new Li原创 2011-09-24 16:45:09 · 4158 阅读 · 2 评论 -
挖挖Hive的代码(三)——生成MapReduce(中)
好久没有更新博客了,最近终于有空可以继续分享我对Hive代码的剖析了。不想再用上一篇的那种风格来解读代码了,直接上白话版的代码解读吧。 上一篇已经贴过一段模式匹配法处理Operator树的代码,罗列了十多个处理流程。这次就具体展开的解读一下Hive是如何实现这些处理流程的。 GenMRProcContext (下面简称ctx), 记录了整个遍历过程中的上下文信息。 Pa原创 2012-08-19 16:28:17 · 3996 阅读 · 0 评论