- 博客(6)
- 收藏
- 关注
原创 Hive外部表
外部表因为是指定其他的hdfs路径的数据加载到表中来,所以hive会认为自己不完全独占这份数据,删除hive表的时候,数据仍然保存在hdfs中,不会删除。注:删除外部表时,只会删除MySQL上对应的元数据,不会删除HDFS上面的数据。二.外部表建表语句(external关键字)
2024-06-04 22:47:33
739
1
原创 Hive的分区
- 分区的字段不要和表的字段相同。-- 演示多拷贝一行上传,分区的列的值是分区的值,不是原来的值。--注意:前后两个分区的关系为父子关系,也就是grade文件夹下面有多个clazz子文件夹。注:当表中分区关键字的数据不对时,仍会加载到分区文件当中,select出来的数据会是分区关键字的数值。把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了。但是HDFS中文件的数据不会改变,只是查询出来的数据会改变。分区的目的:避免全表扫描,加快查询速度!一.Hive分区的概念。
2024-06-04 22:46:26
315
1
原创 Hive的建表与加载数据
* 将Linux本地上的/data目录下面的students.txt数据移动至students表对应的HDFS 目录下,注意是 移动、移动、移动 /* load data local inpath '/data/students.txt' overwrite into table students;// 必选,指定列分隔符。/* 将HDFS上的/input1目录下面的students.txt数据移动至students表对应的HDFS 目录下,注意是 移动、移动、移动 /*三.指定存储格式的建表。
2024-06-04 22:45:46
1384
1
原创 Hive的基本操作
取值范围:0000-01-01 00:00:00.000000000~9999-12-31 23.59:59.999999999,精确到纳秒。注:此时的bigdata30_test3数据库存储的位置是在/bigdata30目录下的luyunlongdb文件,所以说hdfs路径最后的文件名称不一定要和数据库的名称相同,只是表示一种映射关系。取值范围:0000-01-01 00:00:00.000~9999-12-31 23.59:59.999,精确到毫秒。取值范围:-2 31 ~2 31 -1。
2024-06-03 23:06:47
449
原创 Hive概述与架构
Hive的本质是将SQL转换成MapReduce的任务进行计算。底层又HDFS来提供数据存储,即hive可以理解为一个将SQL转换为MR任务的工具。面试题:什么是Hive?1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互的sql,在海量数据中查询分析得到结果的平台。
2024-06-03 23:05:08
215
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人