
Hive
lds_include
在职人员
展开
-
hive的用户自定udf的讲解
udf用户自定义函数1.为什么需要UDF因为内部函数没法满足需求。hive它本身就是一个灵活框架,允许用自定义模块功能,如可以自定义UDF、serde、输入输出等。2.UDF是什么UDF:user difine function,用户自定义函数,一对一。常用udaf:user define aggregate function,用户自定义聚合函数,多对一。udtf:user d...原创 2019-03-24 22:38:07 · 230 阅读 · 0 评论 -
hive的企业级优化
hive的企业级优化说明:以下是常见的六个调优项Fetch抓取说明:所谓fetch抓取hive中的某些查询可以不必使用mapreduce来计算,例如select * from emp这个语句就没有使用mapreduce ,这种情况下,hive可以简单的读取emp目录对应的数据文件。设置方法:设置地方:hive-default.xml<property>...原创 2019-07-01 10:39:28 · 326 阅读 · 0 评论 -
hive的存储格式TextFile、RCFile、ORC
hived的存储格式TextFile、RCFile、ORC说明:所谓的存储格式就是hive的数据在hdfs上存放的具体方式;通过下面的文件我们看出hive的存储格式是一共有六种,每一种都是由自己的规则。file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat...原创 2019-07-01 10:37:57 · 2738 阅读 · 0 评论 -
hive内置函数
hive的内部函数1、取随机数函数:rand()语法: rand(),rand(int seed)返回值: double说明: 返回一个0到1范围内的随机数。如果指定seed,则会得到一个稳定的随机数序列select rand();select rand(10);2、分割字符串函数:split(str,splitor)语法: split(string str, string pa...原创 2019-03-23 13:45:45 · 531 阅读 · 0 评论 -
hive的复杂数据类型
hive常见的复杂数据类型数组Array类型创建复杂类型的表数组arrayluodesong 90,100,100xiaoming 90,90,90创建表create table if not exists arr( name string, score Array<double>)row format delimited fields terminat...原创 2019-03-23 11:33:59 · 553 阅读 · 0 评论 -
hive分区、分桶
hive的分区、分桶一、分区1.为什么要分区当单个表数据量越来越大的时候,hive查询通常会全表扫描,这将会浪费我们不关心数据的扫描,浪费大量时间。从而hive引出分区概念partition2.怎么分区看具体业务,能把一堆数据拆分成多个堆的数据就可以。通常使用id、年、月、天、区域、省份。3.hive分区和mysql分区的区别mysql的分区字段采用的表内字段。hive...原创 2019-03-23 10:33:57 · 343 阅读 · 0 评论 -
hive的内外部表
hive的内外部表创建的方式:外部表create external table if not exists tablename;内部表create table if not exists tablename;使用场景内部表: 多应用于临时表、中间表外部表:用于数据源(较多使用)区别内部表:删除的时候就将源数据删除外部表:删除的时候只鞥删除表结构,不能删除源数...原创 2019-03-23 10:30:53 · 133 阅读 · 0 评论 -
hive的优化
hive的优化优化方式:1、环境优化(linux 句柄数、应用内存分配、是否负载等)2、应用配置属性方面的优化。3、代码优化(hql,尝试换一种hql的写法)。学会看explain:解释执行计划explain :显示hql查询的计划。hive>explain select * from one;explain extended :显示hql查询的计划。还会显示hq...原创 2019-03-26 12:59:17 · 313 阅读 · 0 评论 -
解决hive出现 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 错误
解决hive出现 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 错误问题:执行show databases 命令的时候出现如下标错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMe...原创 2019-03-26 11:09:22 · 3785 阅读 · 0 评论 -
hive执行MapReduce查询报 java.net.ConnectException Call From mini2/192.168.95.32 to mini2:8032 faile...错误
解决hive 执行MapReduce查询的时候报 java.net.ConnectException Call From mini2/192.168.95.32 to mini2:8032 failed on connection…错误问题:当想实现一些会调MapReduce的查询的时候报java.net.ConnectException Call From mini2/192.168.95...原创 2019-03-26 11:07:10 · 847 阅读 · 0 评论 -
hive的视图(view)
hive的视图(view)视图: 视图相当于一个表。hive目前只支持逻辑视图,而不支持物理视图。视图的优点:降低复杂查询。可以将数据很好过滤(局部暴露)。1、创建视图 CVAS创建视图create view if not exists v1 as select * from u1;create view if not exists v2 as select * from u1...原创 2019-03-25 16:58:50 · 2240 阅读 · 0 评论 -
hive数据库操作、数据表操作、数据的导入和导出命令
hive的基本命令数据库的创建定义本质上是在hdfs上创建一个目录,使用comment加入数据库的描述信息,描述信息放在引号里。数据库的属性信息放在描述信息之后用with dbproperties 加入,属性信息放在括号内,属性名和属性值放在引号里,用等号连接有多条属性用逗号分隔例子##创建一个数据库名为myhive,加入描述信息及属性信息create database myhiv...原创 2019-03-22 11:07:06 · 1204 阅读 · 0 评论 -
hive概要、数据类型、列的分割符
hive理论知识什么是hive构建在Hadoop之上的数据仓库Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)通常用于进行离线数据处理(采用MapReduce)底层支持多种不同的执行引擎(Hive on MapReduce、Hive on Tez、Hive on Spark)支持多种不同的压缩格式、存储格式以及自定义函数(压缩:GZIP、LZO、Snappy、BZ...原创 2019-03-22 10:01:19 · 506 阅读 · 0 评论 -
hive数据库的索引解析
hive数据库的索引简要描述注意:索引是数据库的标配技术,hive从0.7以后才开始支持索引。索引的特点:索引文件本身有序,索引文件较小。索引的优缺点hive索引的优点:避免全表扫描或者减少扫描的数量,提高查询效率。hive索引的缺点:将会有冗余存储:加载数据耗时。创建索引先创建表:create table if not exists idx(id bigint,...原创 2019-03-25 16:32:35 · 1073 阅读 · 0 评论 -
hive的文件的记录格式serde
hive的文件的记录格式serde一、概念就是表中数据生成的文件的记录的格式,中途涉及到表到文件时是序列化的过程(Serializer)、文件到表的时候是反序列化过程(Deserializer)。二、常见的serdeCSV serde:逗号分割值,有时也称为字符分隔值,因为分隔字符也可以不是逗号。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔...原创 2019-03-25 13:19:33 · 497 阅读 · 0 评论 -
hive的数据文件存储格式
hive的数据文件存储格式类型texfile:默认的存储格式:普通的文本文件,数据不压缩,磁盘的开销比较大,分析开销大。sequencefile:提供的一种二进制存储格式,可以切割,天生压缩。rcfile:提供的是一种行列混合存储方式,该方式会把相近的行和列数据放在一块儿,存储比较耗时,查询效率高,也天生压缩。orc:是rcfile的一种优化存储。parquet:自定义输入输出格式。...原创 2019-03-25 10:11:19 · 741 阅读 · 1 评论 -
hive中的order by、sort by、distribute by、cluster by排序
hive中的排序说明:hive中有四种全局排序:order by、内部排序:sort by、分区排序:distribute by、组合排序:cluster by。order by(全局排序)说明:全局排序是在一个MapReduce中进行排序的。参数:ASC:是升序的意思和mysql一样,同时也是默认的参数。DESC:降序的意思和MySQL中一样。举例:查询...原创 2019-07-01 10:40:51 · 1035 阅读 · 0 评论