
hive
weirongneng
这个作者很懒,什么都没留下…
展开
-
hive metastore 基础表简绍
hive metastore主要涉及的基础表为: 表的关系为原创 2013-03-05 11:22:06 · 243 阅读 · 1 评论 -
hive 数据倾斜问题
由于同事将未登录网站的相关信息导入到日常访问信息表中,之前的数据总量为7亿,现在13亿,数据差不多扩了一倍,所以在统计独立IP、UV、PV、独立cookie数,出现数据倾斜,reduce 进度99%时就被卡住了,因为未登录用户的用户ID为0,这样导致所有用户ID为0的数据都分到了一个reduce上,6亿的数据。目前简单的解决方法:关联查询的sql: insert ove...2012-12-17 09:59:40 · 146 阅读 · 0 评论 -
hive 仓库中已存在分区,导入数据报错
1.查看数据仓库中数据已存在hadoop fs -ls /warehouse/photo_action_dap/log_date=2012-12-152.查看mysql数据库,分区表中没有2012-12-15分区信息3.元数据库中没有分区数据,导致导入错误;解决办法:1.手动将分区信息添加到数据库中2.执行 hadoop fs -rmr /wareh...原创 2012-12-17 13:03:16 · 377 阅读 · 0 评论 -
hive海量数据--统计一年网站各个产品的UV
在做年终报表需要统计公司网站各个产品一年总的UV,抽出id,product到表year2012,数据条数大概为5千多亿条,由于数据量太大。1 .select count(distinct id) as uv,product from year2012 where log_date>='2012-01-01' and log_date<='2012-12-31' gr...原创 2013-02-06 11:00:45 · 617 阅读 · 0 评论 -
hive数据倾斜之multi-distinct性能优化
集群182个节点,一天的数据量20亿条,查询网站一天的流量数据:uv、pv、ip、cookie、onlinetime,其中uv、ip、cookie 需要distinct去重。reduce到达99%的时候,就卡死了,由于多个distinct 加上数据倾斜造成的。优化之前的sql:select sum(case when d.pv_flag=1 then 1 else 0 end) as ...原创 2013-02-27 16:19:00 · 591 阅读 · 0 评论 -
hive 实现多行转一行处理方法
最近公司在做客户端阅历数据分析,服务器端同事需要计算每个用户的读书分类,读了多少本书,读过多少本书,总时长,总分,数据量非常大,服务器同事那边单机处理一次需要10个小时,后来我拿来我们这边做,分布式计算总比单机计算快吧,所以分享一下:1.需要统计每个用户的书籍分类sql:select us.user_name,us.bid,b.classname from book_clas...原创 2013-11-01 13:35:30 · 1686 阅读 · 0 评论