
hive
某某某的账号
这个作者很懒,什么都没留下…
展开
-
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)数据准备:cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-1转载 2015-12-14 15:16:43 · 681 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie转载 2015-12-14 15:18:02 · 482 阅读 · 0 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createtime strin转载 2015-12-14 15:15:09 · 9556 阅读 · 0 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备:2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-转载 2015-12-14 15:19:10 · 905 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop如何计算map数和reduce数Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。转载 2016-03-10 15:24:02 · 519 阅读 · 0 评论 -
hive大数据倾斜总结
hive大数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的re转载 2016-03-23 15:27:11 · 310 阅读 · 0 评论 -
hive文件存储格式
hive文件存储格式用HIVE很久了,现在将HIVE存储格式大致大致总结一下:HIVE上默认存储格式也是最简单的存储格式,即:文本文件格式:textfile,1.textfiletextfile为默认格式存储方式:行存储优点:1. 可以任意的分隔符进行分割, 2. 便于查看和编辑,可以直接在HDFS上查看明文文件缺点:1. 磁盘开销大 数原创 2016-04-13 16:01:42 · 695 阅读 · 0 评论 -
ORALC/HIVE 的STDDEV、STDDEV_POP、STDDEV_SAMP等函数
今天一个同事碰到一个问题:用SQL求一个指标的计算公式:其中Xi即指标,X—指标均值,N是指标个数,看到这样的计算公式确实比较发愁。在处理问题前,先去恶补了下数理统计方面的知识(数理统计的知识基本上都还给老师了):方差、标准差、平均值.....随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。 样转载 2016-09-20 15:26:37 · 2784 阅读 · 0 评论