wym0345-优快云博客

仅仅获取元数据而不操作的话，使用hive-metastore组件更加合适。hive-jdbc，通过JDBC方式连接HiveServer2（已提）hive-metastore，通过访问metastore服务实现。hive-metastore通过面向对象的方式访问数据库数据。Hive为Java环境提供两种方式对元数据进行访问。

2024-05-21 17:40:31 249

Hive元数据存储在RDBMS中，有三种存储模式。包括Hive表的数据库名、表名、字段名与类型等。元数据存储在Derby数据库，是默认的存储方式。在同一数据库目录下只能有一个Hive客户端使用。远程服务模式，使用远程元数据服务访问数据库。单用户模式，使用内置Derby数据库。多用户模式，使用本地MySQL数据库。优点：Derby小巧易用，安装方便。单用户存储模式适合在测试环境中使用。元数据是描述真实数据的数据。单用户存储模式优缺点。

2024-05-21 17:38:47 288

原创 Hadoop数据仓库——Hive分区、分桶

数据分区（Partitioning）Hive中的分区是一种根据“分区键”（如日期、地区等）将表中的数据分散存储到不同文件夹中的方法。这样做的好处是可以提高查询效率，因为当查询涉及到分区字段时，Hive只需要扫描相关的分区，而不是整张表。举例:假设有一个关于网站访问日志的表web_logs，我们可以按日期对这个表进行分区：CREATE TABLE web_logs ( id INT, url STRING, ip STRING, time STRING)PA

2024-05-21 17:23:43 508

原创 Hadoop数据仓库——Hive内部表与外部表

外部表被drop后，表的metadata会被删除，但是data不会被删除。（1）外部表：因其指删除表时不会删除HDFS上的数据，安全性相对较高，且指定目录的特性，适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。内部表(managed table): 未被external修饰的表，也叫管理表。外部表：删除表会删除表的元数据(metadata)，但不会删除表数据（data）。内部表：删除表会删除表的元数据(metadata)和表数据（data）。

2024-05-21 17:23:33 490

原创 Hadoop数据仓库——Hive DDL操作

Hive 不支持直接修改桶的数量。您需要重新创建表并指定新的桶数，然后重新加载数据。Hive 不支持直接修改数据库，但您可以更改数据库的属性。Hive 不支持直接删除桶的信息。您需要重新创建表并重新加载数据。1. 创建一个新表，包含修改后的列。2. 将旧表的数据插入到新表中。4. 将新表重命名为旧表的名称。

2024-05-21 17:23:26 538

原创 Hadoop数据仓库——Hive的数据类型

分区可以按时间、地区等维度划分数据，分桶可以将数据分散到多个文件中，减少单个文件的大小。SEQUENCEFILE：这是一种二进制格式的文件，支持压缩，可以减少存储空间和提高读取效率。PARQUET：这也是一种列式存储格式，与ORCFILE类似，提供了高效的压缩和查询性能。TEXTFILE：这是Hive的默认格式，适合于文本数据，但不支持压缩和高效的数据访问。数据库：合理设计数据库，避免一个数据库中包含过多的表，可以提高查询效率。分桶：合理选择分桶的列，可以减少数据倾斜，提高查询效率。布尔：BOOLEAN。

2024-05-21 17:23:18 365

原创 Hadoop数据仓库

Hadoop数据仓库是基于Hadoop生态系统构建的大数据存储和处理平台，旨在支持大规模数据的存储、管理、处理和分析。它集成了Hadoop分布式文件系统（HDFS）作为底层存储，并利用Hadoop的分布式计算能力执行数据处理任务。

2024-05-21 17:23:10 644

原创 Hadoop数据仓库——Hive

Hive 执行的本质仍然是MapReduce，但多了一步 SQL 至MapReduce 的转化操作，所以相同条件下，Hive 在运行时并没有直接编写 MapReduce 执行效率高。Hive 的元数据使用 RDBMS 存储，Hive 的数据存储在 HDFS 中，大部分数据查询由 MapReduce 完成。Hive 具有 SQL 数据库的很多类似功能，但应用场景完全不同，故在使用的时候要特别注意其的自身特性。②Hive 支持运行在不同的计算框架上，包括 YARN、Tez、Spark、Flink 等。

2024-05-21 17:22:58 597

wym0345的博客

原创 Hadoop数据仓库——Hive 索引概念与常用操作

原创 Hadoop数据仓库——Hive 视图概念与常用操作

原创 Hadoop数据仓库——hive环境配置

原创 Hadoop数据仓库——Hive 内置函数

原创 Hadoop数据仓库——Hive 窗口函数

原创 Hadoop数据仓库——Hive 聚合操作

原创 Hadoop数据仓库——Hive 数据排序

原创 Hadoop数据仓库——Hive数据关联操作

原创 Hadoop数据仓库—— Hive元数据的定义与操作存储

原创 Hadoop数据仓库——元数据概念与表的结构

原创 Hadoop数据仓库——Hive分区、分桶

原创 Hadoop数据仓库——Hive内部表与外部表

原创 Hadoop数据仓库——Hive DDL操作

原创 Hadoop数据仓库——Hive的数据类型

原创 Hadoop数据仓库

原创 Hadoop数据仓库——Hive

Python实训项目-我爱背单词-源代码

空空如也