HIVE学习记录-基本概念

数据仓库是一个用于数据分析的系统,它不生成或消费数据,而是存储和管理数据。数据仓库具有面向主题、集成性、非易失性和非异变性等特征。HIVE是建立在Hadoop上的数据仓库系统,简化了MapReduce的使用,通过HQL处理大数据。HIVE的元数据描述了数据的位置、顺序和分隔符信息。

相关概念

数据仓库概念 Data Warehouse(DW):用于储存分析的数据系统,面向数据分析(辅助决策)。数据仓库本身不生产数据,也不消费任何数据,只是用来储存,管理数据。

数据仓库特征:

  • 面向主题:所有的操作都围绕分析主题进行。
  • 集成性:根据分析主题将分散在各处操作系统中的数据(这些数据是分散、独立、异构的)抽取(ETL),清理,转换,汇总。
  • 非易失性、非异变性:分析数据中的规律,而不对原始数据做出改变(通俗说就是查询操作多,修改操作少)。
  • 时变性:数据仓库的数据随着时间的变化而更新,适应决策需要。

并不是取代数据库,而是一个专业的、集成的数据分析平台。
OLTP: On-Line Transaction Processing 联机事务处理
比如关系型数据库(SQL),为了捕获数据产生的
OLAP: On-Line Analytical Processing 联机分析处理
比如HIVE,数据分析,为了分析数据产生的
在这里插入图片描述
数据集市概念: 面向单个部门,数据仓库的子集,面向单个部门。

数据仓库分层架构
在这里插入图片描述
分层好处

  • 清晰数据结构:每一个分层都有自己的作用域
  • 数据血缘追踪:当一个数据出了问题,能够快速定位到问题来源
  • 减少重复开发:比如一些通用的中间层数据
  • 复杂问题简单化:复杂的问题分层分布执行
  • 屏蔽原始数据的异常:相当于将数据抽象出来(提供了统一的接口),屏蔽了下层的具体细节。

ETL、ELT概念:
E:Extra(抽取)
T:Transfer(转化)
L:Load(装载)
ETL与ELT的区别就在于各个动作执行的顺序不同。
在这里插入图片描述
在这里插入图片描述

HIVE: 建立在Hadoop之上的开源数据仓库系统,数据存储基于HDFS
核心: 将HQL转换为MapReduce程序并交由Hadoop程序执行
HIVE相对Hadoop的优势: 易于上手、学习开发成本低、提高开发效率,可以让用户专注于编写HQL,将简单的HQL语句转化为复杂的MapReduce在HDFS文件系统上执行。
HIVE能将数据文件映射成一张表,这个映射是指什么?
映射信息:元数据信息(metadata)用来描述数据的数据,包括:

  • 表对应的那个文件(位置信息)
  • 表的列对应文件的哪个字段(顺序信息)
  • 文件字段之间的分隔符是什么

HIVE软件本身承担了什么功能职责?
SQL的语法解析,编译成为MapReduce程序
在这里插入图片描述
在这里插入图片描述
本博客为黑马程序员HIVE的学习笔记,本节对应视频P0-P12
链接:
【黑马程序员Hive全套教程,大数据Hive3.x数仓开发精讲到企业级实战应用】
https://www.bilibili.com/video/BV1L5411u7ae/?p=13&share_source=copy_web&vd_source=49b468d924b244c4625ec7da1ec04633

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kilig*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值