
hive
小狼躲藏
专注于数据仓库、治理、数据分析领域
展开
-
hive并行执行job
用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率,但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql允转载 2014-05-07 17:46:25 · 519 阅读 · 0 评论 -
hive中的udf时间函数用法
1 from_unixtime函数 用法为将时间戳转换为时间格式语法: from_unixtime(bigint unixtime[, string format]) 返回值为string例如 hive>select from_unixtime(1326988805,'yyyyMMddHH') from test;如果为字段转换的话,则为 select from_unix转载 2014-05-07 18:00:51 · 1250 阅读 · 0 评论 -
hive优化之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2014-05-07 17:45:18 · 437 阅读 · 0 评论