
Hive
西西弗斯的石头
这个作者很懒,什么都没留下…
展开
-
数据倾斜原理及解决方案
何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字段可能的数据倾斜一般有两种情况:一种是唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)一种是唯一值比较多,这个字段的某些值有远远多...转载 2020-04-01 19:05:43 · 334 阅读 · 0 评论 -
HIve动态分区
分区是hive存放数据的一种方式。将列值作为目录来存放数据,就是一个分区。这样查询时使用分区列进行过滤,只需根据列值直接扫描对应目录下的数据,不扫描其他不关心的分区,快速定位,提高查询效率。Hive分区分为静态分区和动态分区两种,以下是Hive的静态分区。动态分区:分区的值是非确定的,由输入数据来确定。动态分区的相关属性:hive.exec.dynamic.partition=true...原创 2020-04-01 19:04:07 · 478 阅读 · 0 评论 -
Hive内部表和外部表的区别
区别创建内部表:内部表直接创建,不需要加关键字create table if not exits xm_testA(KEHUMC VARCHAR(50) COMMENT ‘客户名称’,KEHUZH VARCHAR(50) COMMENT ‘客户号’)COMMENT ‘客户信息表’1234外部表:外部表的创建需要加上external关键字修饰,可以通过location指定hi...原创 2020-04-01 18:58:51 · 292 阅读 · 0 评论 -
Hive那些事儿之十一-hive官方文档翻译
原文链接 :https://blog.youkuaiyun.com/qi49125/article/details/78007181概念Hive是什么Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理,Hadoop提供了主要的扩展和容错能力。Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,...转载 2020-02-26 16:32:06 · 298 阅读 · 0 评论 -
Hive那些事儿之十-hive常用字符串函数
hive常用字符串函数语法: instr(string A,string B)返回值: int说明:返回字符串B在字符串A的位置,不存在返回0举例:select instr(‘abcd’,‘a’)1select instr(‘abcd’,‘t’)0语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select leng...原创 2020-02-18 11:43:16 · 212 阅读 · 0 评论 -
Hive那些事儿之九-Hive实现数据抽样的三种方法
Hive那些事儿之九-Hive实现数据抽样的三种方法在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:数据块抽样(tablesample()函数)1) tab...转载 2020-02-18 11:05:15 · 168 阅读 · 0 评论 -
Hive那些事儿之八-大数据踩过的坑——Hive insert
大数据踩过的坑——Hive insert我在对Hive表数据清洗后,使用了如下SQL将结果集插入到新表中:insert into db_name.table_name_1 ( col_1,col2,col3)with temp_table_1 as ( select id,col_2 from db_name.table_name_2 where id = condat...原创 2020-02-17 14:17:22 · 1786 阅读 · 0 评论 -
Hive那些事儿之七-Hive行转列、列转行问题
介绍三种常用函数,空字段赋值,行转列,case when,一、NVL函数空字段赋值,语法:nvl(string1,replaceValue),当某值为空时调用,二、case when就相当于java中switch case,记得最后一定要加end,else就相当于java中的defalut举例:select dept_id,sum(case sex when ‘男’ then ...原创 2020-01-15 18:02:34 · 234 阅读 · 0 评论 -
Hive那些事儿之六-Hive常用日期函数整理
【hive 日期函数】Hive常用日期函数整理1、to_date:日期时间转日期函数select to_date(‘2015-04-02 13:34:12’);输出:2015-04-022、from_unixtime:转化unix时间戳到当前时区的时间格式select from_unixtime(1323308943,’yyyyMMdd’);输出:201112083、unix_tim...转载 2020-01-15 09:55:29 · 394 阅读 · 0 评论 -
Hive那些事儿之五-HiveQL DDL语法规则
Hive DDL ROW FORMATHiveQL DDL语法规则包括CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX(创建 数据库/模式,表,视图,函数,索引)DROP DATABASE/SCHEMA, TABLE, VIEW, INDEX(删除 数据库/模式,表,视图,索引)TRUNCATE TABLE(清空 表)ALTER D...转载 2020-01-15 09:50:12 · 168 阅读 · 0 评论 -
最近在同程艺龙实习整理笔记《Hive那些事儿》系列书籍,共同学习成长。加油。虚心竹有低头叶,傲骨梅无仰面花。
最近在同程艺龙实习,对hive进行了学习,做了些整理的笔记。基本概念hivehive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库库表,并提供类SQL查询功能。基本组成用户接口:CLI,shell命令行;JDBC/ODBC是hive的java实现;webGUI是通过浏览器访问hive;元数据存储:通常是存储在关系数据库如mysql, derby中;hive...转载 2020-01-06 18:17:18 · 258 阅读 · 0 评论 -
Hive那些事儿之四-hive概念
概念Hive是什么Hive是一个基于Apache Hadoop的数据仓库。对于数据存储与处理,Hadoop提供了主要的扩展和容错能力。Hive设计的初衷是:对于大量的数据,使得数据汇总,查询和分析更加简单。它提供了SQL,允许用户更加简单地进行查询,汇总和数据分析。同时,Hive的SQL给予了用户多种方式来集成自己的功能,然后做定制化的查询,例如用户自定义函数(User Defined Fu...转载 2020-01-03 18:17:00 · 422 阅读 · 0 评论 -
Hive那些事儿之开篇-开发规范参考
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。笔者在平时开发过程中总结了些规范,供大家参考:Hive分为内部表和外部表,当删除...转载 2020-01-03 16:40:57 · 324 阅读 · 0 评论 -
Hive那些事儿之二-hive常用字符串函数
hive常用字符串函数语法: instr(string A,string B) 返回值: int 说明:返回字符串B在字符串A的位置,不存在返回0举例: select instr(‘abcd’,‘a’)1select instr(‘abcd’,‘t’)0语法: length(string A) 返回值: int 说明...转载 2020-01-03 15:33:11 · 340 阅读 · 0 评论 -
使用between and查找时间范围时的日期边界问题
使用between and查找时间范围时的日期边界问题最近在一个项目的后台数据库查找中,需要根据表中的时间字段查找某一范围内的数据(7天、15天、30天),这时我想用between and(其实使用DateDiff函数就可以完成,详情请看另一片文章:SQL查询今天、昨天、7天内、30天),但我对于between and查找时间范围时的边界问题不是特别清楚,所以在网上查找了相关资料,在这儿做个简单...转载 2020-01-03 15:26:13 · 3076 阅读 · 0 评论