
hive
文章平均质量分 66
杨步涛的博客
老杨,目前居住上海 微信:yangbt_6225080 qq:306591368 擅长云计算、分布式系统设计、docker容器化技术、海量数据的存储、搜索、数据挖掘。
展开
-
Hive distribute by sorl by order by 的区别
distribute by:控制着在map端如何分区,按照什么字段进行分区,要注意均衡sort by:每个reduce按照sort by 字段进行排序,reduce的数量按照默认的数量来进行,当然可以指定。 最终可以进行归并排序得出结果。 适用于数据量比较大的排序场景。order by:reduce只有一个,在一个reduc原创 2012-12-25 12:39:51 · 6948 阅读 · 0 评论 -
hive架构原理简析-mapreduce部分
整个处理流程包括主要包括,语法解析(抽象语法树,AST,采用antlr),语义分析(sematic Analyzer生成查询块),逻辑计划生成(OP tree),逻辑计划优化,物理计划生成(Task tree),以及物理计划执行组成。下面这张图(不知道是谁画的)简要的说明了整个处理的流程 这里重点说一下物理计划生成,以及执行。物理计划的生成是根据逻辑操作树(operator)来原创 2012-12-19 15:47:16 · 7556 阅读 · 0 评论 -
关于几种压缩算法以及hadoop和hbase中的压缩配置说明
Hadoop中常用的压缩算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要操作系统安装native库才可以支持下面这张表,是比较官方一点的统计,不同的场合用不同的压缩算法。bzip2和GZIP是比较消耗CPU的,压缩比最高,GZIP不能被分块并行的处理;Snappy和LZO差不多,稍微胜出一点,cpu消耗的比GZIP少。通常情况下,想在CPU和IO之间取得平衡的原创 2013-01-06 22:51:31 · 24095 阅读 · 0 评论 -
hive的查询注意事项以及优化总结
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制数据量和Hive生成的Job的数量外,也要根据实际情况调节map和reduce的数量。1、 map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和re原创 2013-01-08 16:32:44 · 3784 阅读 · 0 评论 -
对TextFile格式文件的lzo压缩建立index索引
hadoop中可以对文件进行压缩,可以采用gzip、lzo、snappy等压缩算法。对于lzo压缩,常用的有LzoCodec和lzopCodec,可以对sequenceFile和TextFile进行压缩,但是有一点,对TextFile压缩后,mapred对压缩后的文件默认是不能够进行split操作,需要对该lzo压缩文件进行index操作,生成lzo.index文件,map操作才可以进行spl原创 2013-01-19 14:00:52 · 7422 阅读 · 2 评论