Hadoop中Hive原理及安装

Apache Hive是一个数据仓库工具,用于通过SQL查询Hadoop中的大规模数据。它适用于离线数据仓库任务,不适用于在线事务处理。Hive支持自定义函数,并通过MapReduce进行查询执行。在Hadoop环境中,安装Hive需要配置Metastore,通常使用MySQL。本文介绍了Hive的原理和基于MySQL的安装步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hive是什么(官网概念)

Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。整理了一份适合2018年学习的大数据资料需要的加群QQ群:834325294 注明优快云既可免费获取

  • Hive是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;
  • 一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;
  • Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;
  • 允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;
  • Hive没有专门的数据格式(分隔符等可以自己灵活的设定);

适用场景

  • Hive不适用于在线事务处理。 它最适用于传统的数据仓库任务
  • Hive的执行延迟比较高,因为hive常用于数据分析的,对实时性要求不高;
  • Hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。

1 Execute Query

Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。

2 Get Plan

在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。

3 Get Metadata

编译器发送元数据请求到Metastore(任何数据库)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值