Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

最新推荐文章于 2023-10-25 01:59:38 发布

呀呀培培

最新推荐文章于 2023-10-25 01:59:38 发布

阅读量383

点赞数

分类专栏：大数据文章标签： hadoop hbase

大数据专栏收录该内容

2 篇文章

订阅专栏

本文深入解析了Hadoop生态系统中的Pig、Hive与HBase三大开源技术，阐述了它们各自的功能、适用场景及与Hadoop的集成方式，帮助开发者在数据处理任务中做出明智选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文章来源：http://www.linuxidc.com/Linux/2014-03/98978.htm

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了，我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂，不要紧糊涂的不止你一个，如某个菜鸟的帖子的疑问，when to use Hbase and when to use Hive？….请教了^_^没关系这里我帮大家理清每个技术的原理和思路。

Pig

一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）

Pig是一种数据流语言，用来快速轻松的处理巨大的数据。

Pig包含两个部分：Pig Interface,Pig Latin。

Pig可以非常方便的处理HDFS和HBase的数据，和Hive一样,Pig可以非常高效的处理其需要做的，通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换，并且不想编写MapReduce jobs就可以用Pig.

Hive

不想用程序语言开发MapReduce的朋友比如DB们，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

注意Hive现在适合在离线下进行数据的操作，就是说不适合在挂在真实的生产环境中进行实时的在线查询或操作，因为一个字“慢”。相反

起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色。建立在Hadoop集群的最顶层，对存储在Hadoop群上的数据提供类SQL的接口进行操作。你可以用 HiveQL进行select,join,等等操作。

如果你有数据仓库的需求并且你擅长写SQL并且不想写MapReduce jobs就可以用Hive代替。

HBase

HBase作为面向列的数据库运行在HDFS之上，HDFS缺乏随即读写操作，HBase正是为此而出现。HBase以Google BigTable为蓝本，以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

HBase是一个数据库，一个NoSql的数据库，像其他数据库一样提供随即读写功能，Hadoop不能满足实时需要，HBase正可以满足。如果你需要实时访问一些数据，就把它存入HBase。

你可以用Hadoop作为静态数据仓库，HBase作为数据存储，放那些进行一些操作会改变的数据。

Pig VS Hive

Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。

Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此，Pig仍然是吸引大量的软件开发人员。

Hive和Pig都可以与HBase组合使用，Hive和Pig还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的非常简单

Hive VS HBase

Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。

想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop 。

Hive query就是MapReduce jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多。

博客等级

码龄10年

37
原创

35
点赞

171
收藏

56
粉丝

关注

私信

热门文章

分类专栏

python 21篇
oracle 5篇
Excel 1篇
软件归档 1篇
个人练习 1篇
modeler 2篇
统计分析 4篇
杂类 1篇
机器学习 1篇
数据挖掘 1篇
大数据 2篇
网络架构 2篇
算法 1篇
python-刷题 6篇

展开全部收起

最新评论

Python：文件夹与文件的操作
优快云-Ada助手: 非常感谢您的分享，这篇博客介绍了Python中文件夹和文件的操作，让读者更好地了解了Python的文件IO操作。我觉得下一篇博客可以深入探讨Python中的异常处理技巧，包括如何捕获和处理异常，如何使用try-except语句等等。这样的技术文章对其他Python开发者来说非常有帮助，可以提高他们的代码质量和开发效率。相信会有更多读者对这个主题感兴趣，期待您的下一篇博客！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
oracle数据库之统计分析（方差、标准差、协方差）
疯狂的球球球: STDDEV、STDDEV_POP 这两个还是要区分下，12c下面 STDDEV、STDDEV_SAMP 查询的值一样的，待考证含义是否一样。
统计分析：变异系数
小意达441: 你好，我计算了2002年到2019年全国31个省份的一个综合得分，均值越来越大，标准差越来越大，变异系数越来越小，这怎么解释呀，离散程度是变大了还是变小了呢谢谢你！
oracle数据库之统计分析（方差、标准差、协方差）
weixin_42329261: 给力！！
统计分析：偏度和峰度
Evelyne_Ou: 如果exceess_k>0, 表示波形更平坦(flatness); 如果 exceess_k<0, 则表示波形更突兀消瘦(peakedness).请问这句描述是否写反了，峰度越大，极端差值越大，所以波形更突兀消瘦

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。