
大数据
文章平均质量分 83
vipyeshuai
这个作者很懒,什么都没留下…
展开
-
Zookeeper 在HBase中充当什么样的角色
HBase部署相对是一个较大的动作,其依赖于zookeeper cluster,hadoop HDFS。 Zookeeper作用在于: 1、hbase regionserver 向zookeeper注册,提供hbase regionserver状态信息(是否在线)。 2、hm转载 2016-03-16 14:29:25 · 3103 阅读 · 0 评论 -
Hive大数据倾斜总结
所谓数据倾斜,说的是由于数据分布不均匀,个别值集中占据大部分数据量,加上Hadoop的计算模式,导致计算资源不均匀引起性能下降。还是拿网站的访问日志说事吧。假设网站访问日志中会记录用户的user_id,并且对于注册用户使用其用户表的user_id,对于非注册用户使用一个user_id=0代表。那么鉴于大多数用户是非注册用户(只看不写),所以user_id=0占据了绝大多数。而如果进行计算的时候翻译 2016-03-10 15:37:50 · 3686 阅读 · 1 评论 -
Hive、Hbase、mysql区别
Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,原创 2016-03-10 15:33:02 · 26991 阅读 · 2 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。 CREATE EXTERNAL TABLE yeshuai_test( cookieid string, createtime string, --day pv INT翻译 2016-05-10 15:09:57 · 3232 阅读 · 0 评论 -
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
问题导读:1.NTILE作用是什么?2.按照pv降序排列,生成分组内每天的pv名次可使用哪个窗口函数?3.RANK 和 DENSE_RANK作用是什么?接上篇:Hive分析窗口函数(一)SUM,AVG,MIN,MAX本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hi翻译 2016-05-10 15:18:00 · 1938 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
1.LAG功能是什么?2.LEAD与LAG功能有什么相似的地方那个?3.FIRST_VALUE与LAST_VALUE分别完成什么功能?继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。Hive版本为 apache-hive-0.13.1数据准备:水电费 cookie1,2015-04-10 10:00:02,url2翻译 2016-05-10 15:23:48 · 7572 阅读 · 1 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
1.GROUPING SETS与另外哪种方式等价?2.根据GROUP BY的维度的所有组合进行聚合由哪个关键字完成?3.ROLLUP与ROLLUP关系是什么?GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为翻译 2016-05-10 15:27:37 · 1828 阅读 · 0 评论