Hive是什么(官网概念)
Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。整理了一份适合2018年学习的大数据资料需要的加群QQ群:834325294 注明优快云既可免费获取
- Hive是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;
- 一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;
- Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;
- 允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;
- Hive没有专门的数据格式(分隔符等可以自己灵活的设定);
适用场景
- Hive不适用于在线事务处理。 它最适用于传统的数据仓库任务
- Hive的执行延迟比较高,因为hive常用于数据分析的,对实时性要求不高;
- Hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。
1 Execute Query
Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
2 Get Plan
在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
3 Get Metadata
编译器发送元数据请求到Metastore(任何数据库)。