
hive
绿萝蔓蔓绕枝生
这个作者很懒,什么都没留下…
展开
-
hive 索引
目录1、机制和原理2、优缺点2.1、优点2.2、缺点3、索引操作3.1、创建索引2、查看索引3、删除索引4、加载索引数据5、使用索引1、机制和原理Hive的索引其实是一张索引表(Hive的物理表),在表里面存储索引列的值,该值对应的HDFS的文件路径,该值在数据文件中的偏移量。当Hive通过索引列执行查询时,首先通过一个MR Job去查询索引表,根据索引列的过滤条件,查询出该索引列值对应的HDFS文件目录及偏移量,并且把这些数据输出到HDFS的一个文件中,然后再根据这个文件中去筛选原文件,作为查询Jo原创 2021-11-12 16:28:53 · 2173 阅读 · 0 评论 -
hive 之 xml 字段解析
1、测试字段<?xml version="1.0" encoding="UTF-8"?><people><Name>张三</Name><age>20</age><XinXi><XinBie>"男"</XinBie></XinXi></people><?xml version="1.0" encoding="UTF-8"?><people><Na原创 2021-10-19 10:35:38 · 1146 阅读 · 0 评论 -
Java连接hive
注意:需要开启hive服务首先建一个maven工程,导入依赖包导pom.xml <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.1.0</version> </dependency.原创 2021-06-22 10:46:28 · 5921 阅读 · 0 评论 -
Hive常用函数的说明介绍及其使用
目录1、Hive函数分类1.1、从输入输出角度分类1.2、从实现方式分类2、内置函数2.1、字符函数(1)concat()(2)concat_ws()(3)instr(string,substr)(4)length(string)(5)locate(substr,str,pos)(6)lower(string) /upper(string)(7)regexp_replace(x,y,z)(8)split(string,x)(9)substr(string,x,y)/substring(string,x,y)原创 2020-12-14 18:57:47 · 2494 阅读 · 2 评论 -
Hive常用窗口函数
目录一、概述1、定义2、语法3、演示数据二、窗口函数 - 序列1、row_number()2、rank()3、dense_rank()4、ntile(n)5、percent_rank()三、窗口函数 - 聚合1、count()2、sum()3、avg()、max()、min()四、窗口函数 - 分析1、cume_dist2、lead/lag(col,n)3、firsvt_value、last_value五、窗口函数 - 窗口子句1、含义2、行窗口3、范围窗口一、概述1、定义窗口函数是一组特殊函数扫原创 2020-12-11 19:17:29 · 1391 阅读 · 0 评论 -
hive可视化工具dbeaver
一、dbeaver下载安装网盘下载连接:https://pan.baidu.com/s/1IqYXOZ3z8j8z13KFuW4ZPg提取码:6jd9下载完成后解压安装即可二、连接hive1.打开虚拟机,并开启hadoop、hiveserver22.右击数据库导航栏---->新建连接选择 Apache Hive 后下一步3.首次连接需要编辑驱动,添加hive-hbase-handler-1.1.0-cdh5.14.2.jar将虚拟机中的hive/lib/hive-hbase-ha原创 2020-10-15 17:13:54 · 1775 阅读 · 0 评论 -
Apache Hive函数及性能优化
1、Hive函数的分类1、从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行2、从实现方式分类(1)内置函数Hive提供大量内置函数供开发者使用标准函数包含字符函数、类型转换函数、数学函数、日期函数、集合函数、条件函数等聚合函数表生成函数(2)自定义函数UDF:自定义标准函数UDAF:自定义聚合函数UDTF:自定义表生成函数2、Hive内置函数2.1、字原创 2020-09-22 19:09:27 · 297 阅读 · 0 评论 -
Hive高级语法
1、Hive查询 - SELECT基础select 用于映射符合指定查询条件的行;Hive select 是数据库标准SQL的子集;Hive select 查询与 mysql select 类似;基本语法如下:SELECT 1;SELECT [DISTINCT] column_nam_list FROM table_name;SELECT * FROM table_name;SELECT * FROM table_name WHERE name!='Lucy' LIMIT 5;...原创 2020-09-21 22:21:05 · 1850 阅读 · 0 评论 -
Apache Hive基础以及Hive基础命令
Apache Hive基础以及Hive基础命令一、什么是 `Hive`二、Hive数据类型原始数据类型复杂数据类型Hive元数据结构三、Hive基础命令1、连接方式2、库级操作(同`mysql`)3、数据表分类4、hive 建表语句5、插入数据、读取文件6、删除表7、修改表四、Hive分区定义分区静态分区操作动态分区五、Hive 分桶(Buckets)六、视图一、什么是 Hivehive是基于Hadoop构建的一套数据仓库分析系统,是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制;h原创 2020-09-17 19:37:22 · 346 阅读 · 0 评论 -
Hive全面解析精讲
一、Hive概述1、定义基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供sql的查询语言HQL(Hive Query Language)Hive让更多的人使用Hadoop2、起源Hive是Apache顶级项目Hive始于2007年的Facebook官网:hive.apache.org3、Hive的优势和特点入门简单,HQL类SQL语法统一的元数据管理,可与impala/spark等共享元数据灵活性和扩展性较好:支持UDF,自定义存储格式等支持在不同原创 2020-12-08 19:46:20 · 1044 阅读 · 2 评论 -
hive中order by ,sort by ,distribute by 和 cluster by的区别
hive中order by ,sort by ,distribute by 和 cluster by的区别总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。细讲:order by:order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小还可以,但数据量一旦变大order by就会变得异常吃力,甚至“罢工”。sort by:sor原创 2020-11-25 18:40:45 · 673 阅读 · 1 评论