Apache Hive
文章平均质量分 93
Apache Hive™是一个分布式的、容错的数据仓库系统,它支持大规模的分析,并使用SQL方便地读取、写入和管理驻留在分布式存储中的pb级数据。
boonya
资深Java,架构师,热衷大数据,拥抱AI大模型,有需要的可以加我微信联系:boonya221
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Hive 能否脱离开Hadoop集群工作
Hive可以脱离传统Hadoop集群运行。核心在于替换三大组件:1)计算引擎可用Tez/Spark替代MapReduce;2)存储层可用S3/OSS等云存储替代HDFS;3)资源调度可用Kubernetes替代YARN。现代架构中,Hive更多作为SQL查询引擎,其底层可灵活搭配云存储和计算框架,实现更弹性的部署。完全脱离Hadoop是可行的,但需确保兼容的分布式存储、计算引擎和资源调度框架。原创 2025-09-23 22:22:18 · 1084 阅读 · 1 评论 -
Apache Hive 如何在大数据中发挥能量
摘要:Apache Hive是基于Hadoop的数据仓库软件,支持通过类SQL语言(HiveQL)管理大规模分布式数据集。它提供数据ETL、结构化机制和多存储系统访问能力,支持MapReduce、Tez和Spark等计算引擎。Hive与Spark可实现深度集成,包括Spark直接读写Hive表、Hive on Spark执行引擎、ETL流水线协作等场景。数据导入方式多样,包括LOAD DATA命令、外部表、INSERT查询、Sqoop工具等。程序员可通过执行日志、WebUI等方式感知底层计算引擎,并根据需求原创 2025-09-23 22:12:38 · 1096 阅读 · 0 评论 -
Apache Hive 通过Docker快速入门
在伪分布式模式下在 docker 容器内运行 Apache Hive,以便为 Hive 提供以下快速启动/调试/准备测试环境。原创 2024-10-30 15:11:08 · 3638 阅读 · 0 评论 -
Apache Hive分布式容错数据仓库系统
Apache Hive是一个分布式的、容错的数据仓库系统,支持大规模的分析。Hive Metastore(HMS)提供了一个元数据的中央存储库,可以很容易地对其进行分析,从而做出明智的、数据驱动的决策,因此它是许多数据湖架构的关键组件。Hive建立在Apache Hadoop之上,通过hdfs支持S3、adls、gs等存储。Hive允许用户使用SQL读取、写入和管理pb级的数据。原创 2024-10-30 14:23:19 · 1381 阅读 · 0 评论
分享