Hive
文章平均质量分 60
飝鱻.
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Hive】Hive练习题50道
数据展示student表score表teacher表course表在hive中建表导入数据首先要先在hdfs上为每个数据建一个文件名相同的文件夹,以上的4张表都是txt格式的,放入hdfs相对应的文件夹后,使用以下语句建表(因为数据量不大,就直接建内部表)create table if not exists student(id int,name string,birthday string,sex string)row format delimited fields te原创 2022-05-07 13:43:59 · 9487 阅读 · 5 评论 -
【Hive】Establishing SSL connection without server‘s identity verification is not recommended. Accord
在配置Hive完毕,加入HIve的时候,出现了下面的警告,虽然不影响使用,但是很长,所以我吗想办法把他给弄掉Wed Mar 16 04:00:43 EDT 2022 WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection mus原创 2022-03-16 16:10:06 · 2977 阅读 · 0 评论 -
【HIve】Hive显示列名和读取csv文件不读取表头的设置
Hive显示列名和读取csv文件不读取表头的设置显示列名要想在hive查询语句中只显示列名,我们可以在hive命令行中手动开启(但是这样子是有表名的)set hive.cli.print.header=true;只显示列名的方式set hive.resultset.use.unique.column.names=false;上面的方式虽然达成了要求,但是不是永久生效的,需要每次开启hive时,都要执行一次,为了让此配置文件永久的生效,我们可以修改配置文件<property>原创 2022-01-18 18:20:33 · 3556 阅读 · 2 评论 -
【Hadoop】集群运行卡在Kill Command = /opt/module/hadoop-2.7.2/bin/hadoop job -kill job_1582192539192_0001
当hive运行卡主不动时,报错如下hive (default)> select count(*) cnt from emp;Query ID = root_20200220175612_bb456a03-2298-4d20-82b9-c0a96ae859a0Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order to change the aver原创 2022-01-18 18:06:36 · 2892 阅读 · 0 评论 -
【Hive】使用load导入文件数据却导致文件消失
使用load导入文件数据却导致文件消失在使用hive时,使用load导入外部文件的数据,却发现原文件消失了,经过一番仔细查找,发现文件出现在了hive创建的工作目录下的表里问:我们该如何避免文件因为导入数据而使其位置发生移动?答:我们可以在创建表时(只限于外部表)指定目录,这样就可以避免文件的移动create table test (id int,name string)row format delimitedfields terminated by ','location '/test'原创 2022-01-12 16:34:32 · 2594 阅读 · 0 评论 -
【Hive ERROR】Error: Syntax error: Encountered “<EOF>“ at line 1, column 64. (state=42X01,code=30000)
在搭建hive时,进行最后一步初始化出现了下面的错误Initialization script hive-schema-2.3.0.mysql.sqlError: Syntax error: Encountered "<EOF>" at line 1, column 64. (state=42X01,code=30000)org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Met原创 2022-01-11 09:24:53 · 9974 阅读 · 2 评论 -
【Hive】分桶表
分桶表先创建分桶表分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理 的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围 划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。 分区针对的是数据的存储路径;分桶针对的是数据文件。先创建分桶表数据准备建表以sid分桶,分四桶create table stu_buck(sid int,subject string,score int)clustered by (sid)in原创 2021-04-08 11:02:20 · 343 阅读 · 2 评论 -
【Hive】DML中的四个by
DML中的四个by全局排序(order by)Reduce内部排序(sort by)分区(distributed by)Cluster by本次查询只查询一个员工表字段名分别是empno,ename,job,mgr,hiredate,sal,comm,deptno全局排序(order by)全局排序(order by):只有一个Reducerasc:升序,是默认的desc:降序order by 子句在 SELECT 语句的结尾查询员工信息按工资升序排列select * from原创 2021-04-08 09:38:19 · 608 阅读 · 0 评论 -
【Hive】Hive分区表
Hive分区表和分桶表分区分区的基本操作创建二级分区动态分区分区分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据 集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。分区的基本操作将下列数据存入分区表data_2021032110 ACCOUNTING 170020 RESEARCH 1800data_202103原创 2021-03-22 15:36:18 · 658 阅读 · 0 评论 -
【Hive】Hive表创建练习
Hive表创建练习假设某表有如下一行,我们用 JSON 格式来表示其数据结构。在 Hive 下访问的格 式为基于上述数据结构,我们在 Hive 里创建对应的表,并导入数据。 创建本地测试文件 test.txtsongsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long guan_beijingyangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing解析上原创 2021-03-22 08:49:33 · 676 阅读 · 0 评论 -
【Hive】内外部表的创建和区别
内外部表的创建和区别内部表(管理表)外部表管理表与外部表的互相转换内部表(管理表)默认创建的表都是所谓的管理表,有时也被称为内部表。因为这种表,Hive 会(或多或 少地)控制着数据的生命周期。 Hive 默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的目录的子目录下。 当我们删除一个管理表时,Hive 也会删除这个表中数据。管理表不适合和其他工具共享数据。实例操作原始数据普通原创 2021-03-21 18:46:00 · 1003 阅读 · 0 评论 -
【Hive】Hive的基本概念
Hive的基本概念什么是HiveHive的优缺点优点缺点Hive的构架原理Hive机制及与数据库的比较机制比较什么是Hivehive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。Hive 本质:将 HQL 转化成 MapReduce 程序(1)Hive 处理的数据存储在 HDFS(2)Hive 分析数据底层的实现是 MapReduce(原创 2021-03-21 17:06:23 · 333 阅读 · 0 评论 -
Hive---自定义函数
Hive---自定义函数自定义UDF函数自定义UDTF函数hive的自定义函数大致可以分为三种UDF (User-Defined-Function):一进一出UDAF (User-Defined Aggregation Function):多进一处,类型于聚合函数UDTF (User-Defined Table-Generating Functions):一进多出自定义UDF函数编写一个函数。会将输入的数字加上5然后输出import org.apache.hadoop.hive.ql.ex原创 2021-01-04 14:24:21 · 532 阅读 · 0 评论 -
Hive--->函数的使用
Hive--->函数的使用hive中函数的简单简绍系统内置函数空字段赋值函数(NVL)CASE WHEN THEN ELSE ENG数据准备需求行转列(concat、concat_ws、collect_set、collect_list)concatconcat_wscollect_set练习需求hive中函数的简单简绍**hive中的函数大致分为三种:UDF、UDTF、UDAF **UDF:是一进一出的UDAF:多进一出UDTF:一进多出注意:这个一指的是行数系统内置函数查看系统原创 2020-11-30 16:58:52 · 997 阅读 · 0 评论 -
Hive--->分桶表
Hive--->分桶表分桶表的创建建表语句注意事项insert方式将数据导入分桶表抽样查询语法分桶表时将数据分解成更加容易管理的若干部分的另一技术分区表和分桶表的区别:分区表针对的是数据的存储路径,分桶表针对的是数据文件分桶表的创建建表语句create table stu(id int,name string)clustered by(id)into 4 bucketsrow format delimited fields terminated by '\t';查询分桶表原创 2020-11-29 17:28:14 · 243 阅读 · 0 评论 -
Hive--->分区表
Hive--->分区表分区表的基本操作建表语句分区表的查询分区的增加删除二级分区让分区表和数据产生关联的三种方式动态分区分区表的基本操作建表语句create table student(id int,name string) partitioned by(day string)row format delimited fields terminated by ',';导入数据load data local inpath '/home/data' into table student原创 2020-11-29 16:36:29 · 256 阅读 · 0 评论 -
Hive--->DML中的四个by
Hive--->DML中的四个by排序全局排序(order by),只有一个Reducer每个Reduce内部排序(Sort by)分区(Distribute by)Cluster by排序全局排序(order by),只有一个Reducer使用 ORDER BY字句排序:ASC是升序也是默认的,DESC是降序实操案例:查询员工按照工资降序排列select * from emp order by sal desc;按照部门和工资升序排序select * from emp ord原创 2020-11-29 15:12:31 · 723 阅读 · 0 评论 -
Hive--->DML之数据的导入导出
Hive--->DML之数据的导入导出数据的导入向表中装载数据(Load)语法语句解析通过查询语句向表中插入数据查询语句中创建表并且加载数据根据查询结果创建表Import数据到指定Hive表数据的导出数据的导入向表中装载数据(Load)语法load data [local] inpath 'datapath' [overwrite] into table table_name [partition (partcoll=val1,....)];语句解析load data:表示加载数据l原创 2020-11-29 14:33:52 · 296 阅读 · 0 评论 -
Hive--->DDL语句
Hive--->DDL语句查询数据库显示数据库查看数据库详情修改数据库删除数据库创建表建表语句语句使用字段解释建表时的分隔符设置字段分隔符集合分隔符KV分隔符hive中外部表和内部表的区别内外部表的转换修改删除表查询数据库显示数据库显示数据库:show databases;过滤显示查询的数据库:show database linke 'db_hive';查看数据库详情显示数据库信息:desc database db_hive;显示数据库详细信息:desc database exte原创 2020-11-29 11:14:51 · 799 阅读 · 0 评论 -
【Hive】Hive数据类型的简绍
数据类型的简绍基本数据类型集合数据类型类型的转换隐式转换强制转换基本数据类型Hive的数据类型和Java是很相似的集合数据类型集合数据类型,这些数据类型都支持嵌套(例如:array里的元素可能也是个array)思考:当数据的格式如下时,该如何建表songsong,bingbing_lili,xiao song:18_xiao xiao song:19,hui long guan_beijing建表语句create table test(name string,frie原创 2020-11-27 17:44:44 · 277 阅读 · 0 评论 -
【Hive】创建自定义的UDTF函数
Hive--->创建自定义的UDTF函数导入依赖代码部分创建函数导入依赖只需要倒入一个依赖即可 <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.原创 2020-11-27 16:49:39 · 665 阅读 · 0 评论 -
【Hive】创建自定义的UDF函数
创建自定义的UDF文件导入依赖代码部分创建函数导入依赖只需要倒入一个依赖即可 <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</versio原创 2020-11-27 16:10:59 · 592 阅读 · 0 评论 -
hive的基本语法与操作
hive的基本语法与操作hive的常用的交互式命令hive类型转换hive数据库与表的创建创建数据库创建表建表语法字段解释建表时的分隔符的设置hive的常用的交互式命令‘-e’不进入hive的交互式窗口执行sql语句bin/hive -e "select id from student"’-f’执行脚本里的sql语句,先创建一个文件来存储sql语句,执行文件里的sql语句并且将执行的结果放到其他文件里bin/hive -f /hive.sql > /result.txt在hi原创 2020-11-17 18:02:47 · 843 阅读 · 0 评论 -
Hive在建表时的分隔符的设置
Hive在建表时的分隔符的设置概念字段分隔符集合分隔符KV分隔符概念Hive在加载数据时,会按照一定的规律,逐个逐个的加载数据,因此在建表的时候要设定数据的分割规律字段分隔符在我们的数据分布是如下情况是可以使用字段分隔符来进行分割字段张三,男,19create table StuInfo(name string,gender string,age int)row format delimited fields terminated by ',';集合分隔符字段中国,北京:原创 2020-10-16 16:26:54 · 2470 阅读 · 0 评论 -
【Hive】Hive的建表语句
Hive的建表语句建表语法CREATE [EXTERNAL] TABLE [IF NOT EXIST] table_name[(col_name data_type [COMMENT COL_COMMENT],.....)][COMMENT table_comment][PARTITIONED BY (col_name data_type [COMMENT col_comment],....)][CLUSTERED BY (col_name,col_name,....)][SORTED BY原创 2020-10-14 23:24:21 · 1346 阅读 · 0 评论
分享