
Hive
LMRzero
一名热爱编程的小白,希望与大家一起学习进步
时间序列分类 / Spark / 实时计算
展开
-
一文搞定Hive常用运算和函数
Hive常用运算和函数关系运算等值比较: =不等值比较: <>小于比较: <小于等于比较: <=大于等于比较: >=空值判断: IS NULL非空判断: IS NOT NULLLIKE比较: LIKEJAVA的LIKE操作: RLIKEREGEXP操作: REGEXP数学运算加法操作: +减法操作: -乘法操作 : *除法操作 : /取余操作 : %与操作 : &am...原创 2020-05-07 19:52:58 · 6410 阅读 · 1 评论 -
最全的Hive学习笔记
最全的Hive学习笔记1. 什么是hive1.1. hive基本思想1.2 为什么使用Hive1.3. Hive的特点2. hive的基本架构3. hive安装3.1. 最简安装:用内嵌derby作为元数据库3.2. 标准安装:将mysql作为元数据库3.2.1. mysql安装3.2.2. hive的元数据库配置4. hive使用方式4.1. 最基本使用方式4.2. 启动hive服务使用4.3....原创 2020-05-07 13:23:15 · 4179 阅读 · 1 评论 -
Hive窗口函数之GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
数据:2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-04,2015-04-12,cookie32015-04,2015-04-13,cookie22015-04,2015-04-13,cookie42015-04,2015-04-16,cookie42015-...原创 2019-06-17 23:26:28 · 5067 阅读 · 1 评论 -
Hive窗口函数之LAG,LEAD,FIRST_VALUE,LAST_VALUE
1、数据cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,url6cookie1,2015-04-10 11:00:00,url7cookie1,2015-04-10 10:10:00...原创 2019-06-17 23:20:13 · 6117 阅读 · 2 评论 -
HIve窗口函数之CUME_DIST,PERCENT_RANK
本博客使用数据与。。一致。1、CUME_DIST函数CUME_DIST 小于等于当前值的行数/分组内总行数SELECT cookieid,createtime,pv,CUME_DIST() OVER(ORDER BY pv) AS rn1,CUME_DIST() OVER(PARTITION BY cookieid ORDER BY pv) AS rn2 FROM coo...原创 2019-06-17 23:14:44 · 6003 阅读 · 1 评论 -
Hive窗口函数之NTILE,ROW_NUMBER,RANK,DENSE_RANK
本博客中的数据使用的是**中的数据。1、NTILE函数NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值,如果切片不均匀,默认增加第一个切片的分布。SELECT cookieid,createtime,pv,NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn1,NTILE(3) OVE...原创 2019-06-17 23:11:27 · 5592 阅读 · 1 评论 -
Hive窗口函数之SUM、AVG、MIN和MAX
本文中介绍Hive中的sum、avg、min和max四种窗口函数。1、数据准备数据如下所示:cookie1 2015-04-10 1cookie1 2015-04-11 5cookie1 2015-04-12 7cookie1 2015-04-13 3cookie1 2015-04-14 2cookie1 2015-04-15 4cookie1 2015-04-16 4...原创 2019-06-17 23:03:35 · 14869 阅读 · 1 评论 -
Hive的三种join
Hive中的join可分为三种,分别是Map-join、Reduce-join和SMB Join,本文简单介绍这三种join的原理和机制。1.Map-join MapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作。join就发生在map操作的时候,每当扫描一个大的table中的...原创 2019-06-17 16:26:25 · 8028 阅读 · 1 评论 -
Hive优划
1.fetch task任务不走MapReduce,可以在hive配置文件中设置最大化和最小化fetch task任务;通常在使用hiveserver2时调整为more;设置参数的优先级:在命令行或者代码设置参数 > hive-site.xml>hive-default.xmlset hive.fetch.task.conversion=more; //单次交互模式下有效,...转载 2019-06-17 14:42:59 · 5022 阅读 · 1 评论 -
Hive中rcfile格式
首先声明,此文是属于纯粹收藏文,感觉讲的很不错。本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储...转载 2019-06-03 13:46:03 · 8207 阅读 · 0 评论 -
Hive根据HBase数据库中的表建立外部表
HBase中已经存在表weblogs,有一个列族info,该列族中存在7个列。create external table weblogs( id string, datetime string, userid string, searchname string, retorder string, cliorder string, ...原创 2019-06-07 23:47:05 · 8899 阅读 · 1 评论 -
Hive练习之影评案例分析(二)
(3)求movieid = 2116这部电影各年龄段的平均影评(年龄段,影评分)分析:t_user和t_rating表进行联合查询,用movieid=2116作为过滤条件,用年龄段作为分组条件create table question3 as select a.age as age, avg(b.rate) as avgrate from t_user a join t_rating...原创 2019-05-29 12:39:06 · 11868 阅读 · 0 评论 -
Hive练习之影评案例分析(一)
影评案例分析能够较为完整的学习Hive,今天在复习Hive的过程中又将这个案例操作了一遍。一、数据说明和下载在本案例中总共有三份数据,分别是:(1)users.dat 数据格式为: 2::M::56::16::70072,对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String(2)...原创 2019-05-26 20:39:29 · 11262 阅读 · 1 评论 -
Hive的TRANSFORM
转载自https://www.cnblogs.com/qingyunzong/p/8746159.htmlHive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况具体以一个实例讲解。Json 数据: {"movie":"1193","rate":"5","timeStamp":"978300760","u...转载 2019-05-26 18:48:13 · 9281 阅读 · 0 评论