大数据处理技术之Hive 概览

本文介绍了Hive作为大数据处理技术的一部分,其在大数据架构中的作用。Hive是一个数据仓库工具,它将SQL转换为MapReduce任务进行分析。文章详细讨论了Hive的优点,如类SQL语法简化大数据分析,以及缺点,如不支持实时数据处理和SQL表达能力有限。此外,还概述了Hive的架构,数据存储在HDFS中,元数据存储在Derby或MySQL,以及其与数据库的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据处理技术之Hive 概览

1. 大数据架构

  1. 如我另一篇博客了所述,大数据处理技术架构和业务应用,大数据业务和技术架构简图如下:
    在这里插入图片描述
  2. 整个大数据技术可以分为3大块,数据存储、数据处理和分析、数据展示。三大板块都可以独立和业务系统对接,但一般这三者都会形成一个技术体系对外部的技术体系提供服务。
  3. 例如一家公司内部的大数据部门负责存储从业务体系中获取到的海量数据如日志、业务数据等等,然后通过mapreduce、hive、spark、flink等技术进行分析处理,之后再通过OLAP对外进行数据展示或者提供对外API给公司内部或者外部客户进行调用。

2. Hive是什么

  1. hive就是用于分析处理海量结构化日志的一种技术。由facebook开源出来。
  2. 本质是将sql语句转化为mapreduce程序进行数据分析处理。
  3. hive不是一个数据库,是一个数据仓库工具,可以把结构化数据映射为一张表,同时对外提供类似sql的查询
  4. 注意SQL只是一种规范,很多数据库或者框架都会尽可能遵循SQL规范,也就是确保主要的SQL语句功能是通用的,但细微部分肯定会有差异。这样带来的好处是只要会使用SQL,就能使用大部分框架提供的能力,所以Hive、Clickhosue等数据处理框架都会提供SQL支持࿰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值