- 博客(16)
- 收藏
- 关注
原创 Hadoop数据仓库——Hive 视图概念与常用操作
Hive 不直接支持视图的修改,但是可以通过。通过上述语句,可以创建一个名为。: 与查询普通表一样,使用。的视图,其内容是基于。
2024-05-21 17:57:38
314
原创 Hadoop数据仓库——Hive数据关联操作
ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行。DISTINCT子句可以返回删除结果集中的重复行。LIMIT子句用于限制SELECT语句返回的行数。
2024-05-21 17:41:50
232
原创 Hadoop数据仓库—— Hive元数据的定义与操作存储
仅仅获取元数据而不操作的话,使用hive-metastore组件更加合适。hive-jdbc,通过JDBC方式连接HiveServer2(已提)hive-metastore,通过访问metastore服务实现。hive-metastore通过面向对象的方式访问数据库数据。Hive为Java环境提供两种方式对元数据进行访问。
2024-05-21 17:40:31
215
原创 Hadoop数据仓库——元数据概念与表的结构
Hive元数据存储在RDBMS中,有三种存储模式。包括Hive表的数据库名、表名、字段名与类型等。元数据存储在Derby数据库,是默认的存储方式。在同一数据库目录下只能有一个Hive客户端使用。远程服务模式,使用远程元数据服务访问数据库。单用户模式,使用内置Derby数据库。多用户模式,使用本地MySQL数据库。优点:Derby小巧易用,安装方便。单用户存储模式适合在测试环境中使用。元数据是描述真实数据的数据。单用户存储模式优缺点。
2024-05-21 17:38:47
258
原创 Hadoop数据仓库——Hive分区、分桶
数据分区(Partitioning)Hive中的分区是一种根据“分区键”(如日期、地区等)将表中的数据分散存储到不同文件夹中的方法。这样做的好处是可以提高查询效率,因为当查询涉及到分区字段时,Hive只需要扫描相关的分区,而不是整张表。举例:假设有一个关于网站访问日志的表web_logs,我们可以按日期对这个表进行分区:CREATE TABLE web_logs ( id INT, url STRING, ip STRING, time STRING)PA
2024-05-21 17:23:43
373
原创 Hadoop数据仓库——Hive内部表与外部表
外部表被drop后,表的metadata会被删除,但是data不会被删除。(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。内部表(managed table): 未被external修饰的表,也叫管理表。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。内部表:删除表会删除表的元数据(metadata)和表数据(data)。
2024-05-21 17:23:33
427
原创 Hadoop数据仓库——Hive DDL操作
Hive 不支持直接修改桶的数量。您需要重新创建表并指定新的桶数,然后重新加载数据。Hive 不支持直接修改数据库,但您可以更改数据库的属性。Hive 不支持直接删除桶的信息。您需要重新创建表并重新加载数据。1. 创建一个新表,包含修改后的列。2. 将旧表的数据插入到新表中。4. 将新表重命名为旧表的名称。
2024-05-21 17:23:26
456
原创 Hadoop数据仓库——Hive的数据类型
分区可以按时间、地区等维度划分数据,分桶可以将数据分散到多个文件中,减少单个文件的大小。SEQUENCEFILE:这是一种二进制格式的文件,支持压缩,可以减少存储空间和提高读取效率。PARQUET:这也是一种列式存储格式,与ORCFILE类似,提供了高效的压缩和查询性能。TEXTFILE:这是Hive的默认格式,适合于文本数据,但不支持压缩和高效的数据访问。数据库:合理设计数据库,避免一个数据库中包含过多的表,可以提高查询效率。分桶:合理选择分桶的列,可以减少数据倾斜,提高查询效率。布尔:BOOLEAN。
2024-05-21 17:23:18
296
原创 Hadoop数据仓库
Hadoop数据仓库是基于Hadoop生态系统构建的大数据存储和处理平台,旨在支持大规模数据的存储、管理、处理和分析。它集成了Hadoop分布式文件系统(HDFS)作为底层存储,并利用Hadoop的分布式计算能力执行数据处理任务。
2024-05-21 17:23:10
517
原创 Hadoop数据仓库——Hive
Hive 执行的本质仍然是MapReduce, 但多了一步 SQL 至MapReduce 的转化操作,所以相同条件下,Hive 在运行时并没有直接编写 MapReduce 执行效率高。Hive 的元数据使用 RDBMS 存储,Hive 的数据存储在 HDFS 中,大部分数据查询由 MapReduce 完成。Hive 具有 SQL 数据库的很多类似功能,但应用场景完全不同,故在使用的时候要特别注意其的自身特性。②Hive 支持运行在不同的计算框架上,包括 YARN、Tez、Spark、Flink 等。
2024-05-21 17:22:58
492
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人