hadoop的概念

最新推荐文章于 2025-09-09 23:41:54 发布

转载最新推荐文章于 2025-09-09 23:41:54 发布 · 100 阅读

·

0

·

文章标签：

#大数据 #数据库

本文详细介绍了Hadoop架构的核心组成部分，包括HDFS、MapReduce、Hive和HBase，并深入探讨了它们各自的功能、特点及应用场景。HDFS作为分布式文件系统，提供了PB级别的数据存储能力；MapReduce框架则支持大规模数据计算；Hive通过将SQL语句转换为MapReduce任务，简化了数据查询和分析过程；HBase作为基于列存储的非关系型分布式数据库，适用于大数据领域的高效数据处理。

hadoop的概念

网上会经常遇到各种hadoop的概念，Hive，HBase，Hdfs都各是什么呢？

首先从hdfs说起，hdfs是分布式文件系统，它把集群当作单机一样做文件操作，文件可能存在于多个机器上，具体的存储细节会对使用者隐藏。

map_reduce是一个计算框架，google提出的，用于大规模数据计算，它们的主要思想，是从函数式编程中借来的特性。

hdfs和map_reduce统称为我们常说的Hadoop架构，这个架构能存储PB级别的数据，也能进行成千上万的独立计算。

好，现在已经有了这个框架了，这个框架包含了底层的存储结构，但是却并不是那么好用，我们大家还是擅长于使用sql语句来进行数据精炼，查询和分析的。这个时候，就出现了Hive。Hive的功能是把sql语句解析成map_reduce的计算任务，当然这样的拆分会导致查询变慢，可能一个sql查询需要分钟甚至小时级别的，不像mysql那样秒级以内查询出结果。

基于Hadoop框架，Powerset公司提出了另外一种非关系行分布式数据库HBase。它是使用JAVA实现的，最大的特点是基于列存储的。列存储的好处是什么？列存储就是把不同行相同的数据存储在一起，这样比如有的行没有的属性，在行存储中还需要留空余空间，但是在列存储中就完全不需要。列存储也能把相同属性的字段存储在一起，这样对数据压缩也有好处。所以列存储很适合大数据领域。

我们经常看到文章比较HBase和Hive，一般都是比较他们的查询效率，其实他们并不是一个维度的东西。HBase的查询效率会优于Hive，而Hive一般用于做离线的数据分析。

参考

大数据存取的选择：行存储还是列存储？
hive 、hbase区别分析

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。