
数据查询
文章平均质量分 91
新-农
新人入坑,精通各种HelloWorld
展开
-
Hive的Parquet存储与LZO压缩
在Hive中,为我们提供了五种文件存储格式 1、Textfile 2、Sequencefile 3、Rcfile 4、Orcfile 5、Parquet 这里主要介绍一下Parquet,列式存储 一、概念 1、Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作原创 2022-04-18 23:43:34 · 3896 阅读 · 0 评论 -
Hive的元数据存储与元数据表
一、元数据(metadata) 元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。 元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。 元数据包含用Hive创建的database、table等的元信原创 2022-03-30 22:25:54 · 7336 阅读 · 0 评论