
Hive
SoWhat1412
微信搜索【SoWhat1412】,第一时间阅读原创干货文章。人之患、在好为人师、不实知、谨慎言。点点滴滴、皆是学问、看到了、学到了、便是收获、便是进步。
展开
-
6W字的Hive讲解只为你更懂它
1. Hive 入门什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质:将HQL转化成MapReduce程序Hive特性:Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上Hive的优缺点优点:操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。避免了去写MapReduce原创 2020-06-08 10:30:45 · 1611 阅读 · 2 评论 -
【Hive】解析json字符串
stream是一个集合。这个集合,可以用于存放,无穷多个元素,但是这无穷个元素并不会一次性生产出来,而是需要用到多大的区间,就会动态的生产,末尾元素遵循lazy规则。感觉跟Python3 中的 xrange有点类似,都是lazy模式,调用的时候再产生数据。Java 中 打印1 到 100 个数组,需要先创建出来,再遍历,Scala不需要,给它一个规则,当使用的时候,在按照规则生成即可,不占用内...原创 2019-11-01 14:08:21 · 1906 阅读 · 3 评论 -
【Hadoop】第六天 Hive
HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 re...原创 2019-12-14 16:42:34 · 2469 阅读 · 10 评论 -
ROW_NUMBER() OVER() 函数用法详解 分组排序
语法格式:row_number() over(partition by 分组列 order by 排序列 desc)row_number() over()分组排序功能:在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where 、group by、 order by 的执行。例一:表数据:...转载 2019-12-04 09:48:41 · 15057 阅读 · 4 评论 -
hive 创建索引
文章目录hive索引创建索引加载索引数据查看索引表中数据删除索引查看索引参考hive索引索引是hive0.7之后才有的功能,创建索引需要评估其合理性,因为创建索引也是要磁盘空间,维护起来也是需要代价的创建索引create index idx_user_phone on table user_phone_with_phone_message(user_phone)as 'org.apach...原创 2019-11-28 15:33:30 · 29518 阅读 · 1 评论 -
Hive 中 null 和\N 的处理
Hive中有种假的NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的,而我们习惯性对NULL 值的过滤,一般是is null 和 is not null。所以此时可以通过对修改hive 表的信息,来保证控制都显示为指定值 ,方便进行过滤。解决方法如下:(1)如下:alter table t_dw_ct_author set s...转载 2019-08-31 11:49:57 · 4546 阅读 · 0 评论 -
HIVE 默认分隔符 以及linux系统中特殊字符的输入和查看方式
一、查看特殊字符Vim中可见特殊字符会直接显示,不可见特殊字符会显示为该字符在命令行的输入方式, 例如\r显示为^M。通过:help digraph-table可看到所有Vim中可输入的特殊字符, 该文档的第一页如下:char digraph hex dec official name^@ NU 0x00 0 NULL (NUL)^A SH 0x01 1 ...原创 2019-08-20 18:50:03 · 18622 阅读 · 1 评论 -
hive 数据仓库中 mysql,hive,hdfs,mapreduce 之间的关系
交流中发现很多hive转行的开发者都不是特别清楚,hive既然是数据仓库,那为什么还需要mysql数据库,还需要hdfs呢,熟悉三者之间的关系是作为一个合格的hive数据仓库开发者必须掌握的技能通俗理解:mysql 是 资源库的角色。hive不也是属于数据仓库嘛,他的数据文件是放在HDFS上,但是他的配置信息是放在资源库上,也就是mysql。比如说表结构等等。相当于'后宫',我是这么理解的...原创 2019-07-06 11:52:38 · 2314 阅读 · 0 评论 -
hive 元数据 解释
元数据:本质上只是用来存储hive中有哪些数据库,哪些表,表的模式,目录,分区,索引以及命名空间。为数据库创建的目录一般在hive数据仓库目录下。在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中...转载 2019-07-06 11:51:39 · 8476 阅读 · 0 评论 -
hive 显示当前数据库名
当hive CLI启动时,在hive > 提示符出现之前会优先执行文件.hiverc,Hive会自动在${HIVE_HOME}/bin目录下寻找名为.hiverc文件,由此可以在这个文件中设置配置一些常用的参数。由于它是隐藏文件,我们可以用Linux的ls -a命令查看。编写 .hiverc,参考链接, 有说放在 $HOME/.hiverc 或者 $HIVE_HOME/bin/.h...原创 2019-07-05 20:35:23 · 5015 阅读 · 3 评论 -
Hive分区表的分区操作
Hive 没有行级别的数据的增删改,往表中装载数据唯一途径就是 使用大量数据进行装载,可以通过load 可以 insert动态分区,动态静态所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区注意:使用,insert...select 往表中导入数据时,查询的字段个数必须和目标的字段个数相同,不能多,也不能少,否则会报错。但是如果字段的类型不一致...原创 2019-06-27 13:52:34 · 3661 阅读 · 0 评论