
hive
第十人
这个作者很懒,什么都没留下…
展开
-
hive分区处理注意点
在优化一个使用4W个map的job的时候,发现了一个使用hive的注意点,跟大家分享下。 hive表中一般都有分区,在程序里我们会动态取某个分区里的数据,这时分区值就是一个函数。这个函数的选择就是关键了。 优化前的分区函数是: dt = date_sub(from_unixtime(unix_timestamp(), 'yyyy-MM-dd'), 2) (水平有限,当时就这么写了)原创 2015-02-12 16:48:12 · 405 阅读 · 0 评论 -
hive 小文件合并
Hive 支持在 MR 任务结束之后,再另起一轮 MR 作业进行小文件的合并。这轮作业只会有 mapper, 没有 reducer. 每个 mapper 根据参数读入若干文件并输出成一个文件,从而达到文件合并的效果 与 mergefile 有关的参数有以下: 参数 说明 当前默认值 hive.merge.mapfi原创 2016-05-10 16:45:08 · 714 阅读 · 0 评论