hive 原理 用法,编码,UDF 001

本文介绍了数据仓库的概念及其特点,对比了传统数据库在处理大量数据时存在的局限性,并详细阐述了Hive作为基于Hadoop的数据仓库工具的工作原理、系统架构及基本操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成 的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant )的数据集合,用于支持管理决策。 

传统的数据库 很难 海量数据存储,处理不同类型的数据,计算和处理能力不足

2 hive工作原理 

       hive是基于Hadoop的一个数据仓库,他能够将hadoop里面hdfs结构化的数据文件映射为一张表(因此我们需要安装mysql数据库)。当我们写一个hive的sql时,hive中的sql解析器会将sql解析成mapreduce作业

hive的出现让开发变得简单,用sql可以完成mapreduce作业

hive在企业中常见的应用

hive的系统架构:

hive sql执行过程

*  当启动MapReduce程序时,Hive本身是不会生成MapReduce算法程序的

• 需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生 的Mapper和Reducer模块

• Hive通过和JobTracker通信来初始化MapReduce任务,不必直接部署在 JobTracker所在的管理节点上执行

• 通常在大型集群上,会有专门的网关机来部署Hive工具。网关机的作用 主要是远程操作和管理节点上的JobTracker通信来执行任务

• 数据文件通常存储在HDFS上,HDFS由名称节点管理 

hive-HA

 

hive的基本操作:

    beeline可以用!connect jdbc:hive2://localhost:10000 用来连接hiveserver2启动的hive服务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值