
hadoop
文章平均质量分 72
释然me
专注web
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive中时间日期函数的使用
to_date:日期时间转日期函数 select to_date('2015-04-02 13:34:12'); 输出:2015-04-02 from_unixtime:转化unix时间戳到当前时区的时间格式 select from_unixtime(1323308943,’yyyyMMdd’); 输出:20111208 unix_timestamp:获取当前unix时间戳原创 2015-05-05 17:35:55 · 32888 阅读 · 1 评论 -
hive sql优化
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 对分区插入数据(每次都会覆盖掉原来的数据): hive.map.aggr=true Map 端部分聚合,相当于Combiner hive.groupby.skewindata=true转载 2015-06-16 09:52:27 · 1094 阅读 · 0 评论 -
hive sql优化
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 hadoop处理数据的过程,有以下显著的特征: 1、不怕数据多,就怕数据倾斜 2、对jobs数比较多的作业运行效率相对比较低,比如即使使用几百行的表,如果多次关联多次汇总,产生十几个jobs,没半个小时是跑不完的。map reduce作业初始化的时间是比较长的。 3、对sum,count来说,不存在数原创 2015-09-11 19:20:52 · 983 阅读 · 0 评论