之前更完了《Kafka从入门到放弃》系列文章,本人决定开新坑——hive从入门到放弃,今天先认识一下hive。
还没看的可以点击跳转阅读:《Kafka从入门到放弃》
hive介绍
hive是一个开源的用于大数据分析和统计的数据库工具,它的存储基于HDFS,计算基于MapReduce或Spark,可以将结构化数据映射成表,并提供类SQL查询功能。
特点
- 提供类SQL查询,容易上手,开发方便
- 封装了很多方法,尽量避免了开发MapReduce程序,减少成本
- 支持自定义函数,可以根据需求实现函数
- 适用于处理大规模数据,小数据的处理没有优势
- 执行延迟较高,适合用于数据分析,不适合对时效性要求较高的场景
hive的架构
- MetaStore:元数据,数据的数据,比如某个表的元数据,包括表名、表所属的数据库、表的类型、表的数据目录等;
- CLI(命令行接口)、JDBC:用户接口,用以访问hive;
- Sql Parser 解析器:将SQL转换成抽象语法树,一般用第三方工具库完成;对