软件版本
Hive概述
Hive由Facebook开源,起初是为了解决海量结构化日志的统计。是基于Hadoop之上的数据仓库(data warehouse)
Hive 是一个使用SQL来操作分布式存储系统上面的大数据集的读写和管理操作的一个客户端,Hive没有集群的概念。用JDBC去连接Server的话,不应该是走查询统计分析,而是去拿到统计结果,只拿结果,不做计算。
1.阶段版本
Stinger plan:(阶段版本)
08/2007: facebook
05/2013: 0.11.0 Stinger Phase1 ORC HiveServer2
10/2013: 0.12.0 Stinger Phase2 ORC improvement
04/2014: 0.13.0 Stinger Phase3 Vectorized query engine Tez(0.13版本后才能用)
11/2014: 0.14.0 Stinger.next Phase 1 Cost-based optimizer(CBO基于成本的优化,代价的优化)
01/2015: 1.0.0 (里程碑点)
Stinger:不是一个项目或产品,而是一种提议,旨在将Hive性能提升100倍(仅仅是个参考),包括Hive的改进和Tez项目两个部分。
2.Hive的特点
1、简单易用
2、扩展性好
3、共享的元数据管理:Hive/Pig/Impala/Spark SQL/Presto:e.g. Hive里创建了一张表,可以直接使用Spark SQL进行访问。
3.Hive架构
Hive部署
MySQL安装部署见文: