Hive从概念到原理

Hive是一个基于Hadoop的数据仓库工具,提供类似SQL的查询语言HQL,用于处理和分析大规模结构化数据。它不存储和处理数据,而是依赖HDFS和MapReduce。Hive适用于批处理静态数据,支持ETL过程,提供CLI、HWI、JDBC/ODBC、Thrift Server等多种访问接口。与HBase互补,Hive通过HQL转换为MapReduce作业进行数据处理。此外,文章还介绍了Hive的安装、基本操作及工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。在Hadoop中用来处理结构化数据。Hive查询语言采用Hive为MapReduce处理结构化数据。Hive不是实时查询语言。

一、数据仓库概念:

面向主题的,集成的,相对稳定的,反映历史变化的数据集和,用于支持管理决策。

根本目的:

数据仓库的管理和应用

 

数据仓库和数据库的区别:数据仓库的数据是稳定的,只读的,数据仓库存储历史数据,数据库只能保留某个时刻的特性,而数据仓库则保留了所有的历史数据。(用于帮助企业分析、决策)

传统数据仓库面临的挑战:1、面对实时海量数据,无法满足快速增长的海量数据存储要求2、无法有效处理不同类型数据3、计算和处理能力不足

二、Hive

基于hadoop平台的一个数据仓库工具,底层hadoop平台之上。

Hive本身不支持数据的存储和处理,但它给用户提供了一个编程接口,类似于SQL

借助HDFS存储数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值