1.Apache Hive 简介
建立在Hadoop之上的数据仓库工具,提供:
- tools of ETL
- impose structure on a variety of data formats
- access to files on HDFS or HBase( hive hbase handler)
- query data by MapReduce
类似SQL语法的HQL, 通过UDF, UDAF, UDTF增强语句功能:
- UDF: 对查询结果格式化处理后,输出内容, 一进一出
- UDAF:对查询结果进行聚合处理,比如 Sum, Average,.......
- UDTF:输入一行输出多行
用法定位: not real-time or low-level updates, 最好用在大数据集上Batch查询任务
特点:
- 集群动态扩展(Hadoop)
- 功能扩展(UDF)
- 容错(mapreduce job)
- 与输入格式的松耦合
hive architechure:
本文介绍了Apache Hive这一基于Hadoop的数据仓库工具,它为用户提供了一种类SQL的查询语言HQL,并支持通过用户定义函数(UDF)、用户定义聚合函数(UDAF)和用户定义表函数(UDTF)来增强其功能。Hive适用于处理大规模数据集的批处理查询任务,具备集群动态扩展、功能扩展、容错及与输入格式松耦合等特点。
1万+

被折叠的 条评论
为什么被折叠?



