
HIVE
星月的雨
这个作者很懒,什么都没留下…
展开
-
HIVE总结
简述 CREATE TABLE records2 (station STRING, year STRING, temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL INPATH '/Users/tom/book-workspace/hadoop-boo原创 2018-01-30 22:30:54 · 245 阅读 · 0 评论 -
Hive文件格式(表STORE AS 的四种类型)
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用i...转载 2018-02-27 09:26:28 · 3233 阅读 · 0 评论 -
Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index
转:Hive性能优化之ORC索引–Row Group Index vs Bloom Filter Index之前的文章《更高的压缩比,更好的性能–使用ORC文件格式优化Hive》中介绍了Hive的ORC文件格式,它不但有着很高的压缩比,节省存储和计算资源之外,还通过一个内置的轻量级索引,提升查询的性能。这个内置的轻量级索引,就是下面所说的Row Group Index。其实ORC支持的索引不止这一...转载 2018-02-27 09:44:00 · 1384 阅读 · 0 评论 -
Hive索引
Hive是支持索引的,但基本没用过,只做了下试验。为什么大家都不用,肯定有它的弊端。Hive索引机制:在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量;在执行索引字段查询时候,首先额外生成一个MR job,根据对索引列的过滤条件,从索引表中过滤出索引列的值对应的hdfs文件路径及偏移量,输出到hdfs上的一个...转载 2018-02-27 10:03:52 · 248 阅读 · 0 评论