Hive:
数据仓库
Hive的本质其实就相当于将Hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询
用于数据分析和清洗
Hive适用于离线的数据分析和清洗,延迟较高
基于HDFS、MapReduce
Hive存储的数据依旧在DataNode上,编写的HQL语句最终转换成MapReduce代码去执行
HBase
数据库
是一种面向列族存储的非关系型数据库
用于存储结构化和非结构化的数据
非结构化用统一资源定位符的方式(就是存储一个资源地址),适用于单表非关系型数据的存储,不适合做关联查询,类似于JOIN,SUM等
基于HDFS
Hbase最终数据也是在HDFS上面,只不过是以HFile的格式去存储,存放在DataNode上,被RegionServer以Region的形式进行管理
延迟比较低,能够满足超大数据的线上使用
HBase可以直接单表大量数据的存储,同时提供了高效的数据访问速度
本文对比了Hive和HBase两种不同的数据处理方式。Hive作为数据仓库,主要用于离线数据分析和清洗,通过HQL简化了MapReduce的复杂度。而HBase是一种面向列族存储的非关系型数据库,适合存储大量结构化和非结构化数据,并提供快速的数据访问能力。

被折叠的 条评论
为什么被折叠?



