
hive
文章平均质量分 59
wangqiaoshi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive外部表使用分区partition(实时导数据)
from http://blog.youkuaiyun.com/azhao_dn/article/details/7713017 1)创建外部表[python] view plaincopycreate external table test(username String,work string) PARTITIONED BY(year S转载 2014-02-27 18:16:59 · 365 阅读 · 0 评论 -
hive 中的多列进行group by查询方法
from http://blog.youkuaiyun.com/jiedushi/article/details/7579132在工作中用hive进行数据统计的时候,遇到一个用group by 进行查询的问题,需要统计的字段为gid,sid,user,roleid,time,status,map_id,num其中time字段为时间戳形式的,统计要求为将各个字段按照每个小时的num总转载 2014-02-17 14:24:32 · 521 阅读 · 0 评论 -
hive load data出错
今天往hive导数据时发生了个错误hive> load data inpath '/user/tmp/uids.test_copy_3.txt' into table userfeature.user_strategy partition(sid='203');Loading data to table userfeature.user_strategy partition (sid=203原创 2014-02-18 23:15:53 · 1394 阅读 · 0 评论 -
hive优化之------控制hive任务中的map数和reduce数
from http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;转载 2014-03-12 21:37:06 · 582 阅读 · 0 评论