大数据和Hadoop生态圈四

最新推荐文章于 2024-07-15 11:02:31 发布

原创最新推荐文章于 2024-07-15 11:02:31 发布 · 210 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #程序员 #编程语言

大数据同时被 3 个专栏收录

40 篇文章

订阅专栏

编程语言

40 篇文章

订阅专栏

人工智能

40 篇文章

订阅专栏

1.4 Hadoop发行版本

虽然Hadoop是开源的Apache(和现在GitHub)项目，但是在Hadoop行业，仍然出现了大量的新兴公司，以帮助人们更方便地使用Hadoop为目标。这些企业大多将Hadoop发行版进行打包、改进，以确保所有的软件一起工作，并提供技术支持。现在，Apache自己也在开发更多的工具来简化Hadoop的使用，并扩展其功能。这些工具是专有的，并有所差异。有的工具成为了Apache Hadoop家族中新项目的基础。其中，有些是经过Apache2许可的开源GitHub项目。尽管所有这些公司都基于Apache Hadoop发行版，但是他们都与Hadoop的愿景有了细微的不同——应该选取哪个方向，怎样完成它。

这些公司之间最大的区别是：Apache源代码的使用。除了MapR公司之外，都认为Hadoop应该由Apache项目的代码定义。相反，MapR认为Apache的代码只是实施参考，可以基于Apache提供的API来实现自己的需求。这种方法使得MapR做出了很大的创新，特别是在HDFS和HBase方面，MapR让这两个基本Hadoop的存储机制更加可靠、更加高性能。MapR还推出了高速网络文件系统(NFS)，可以访问HDFS，从而大大简化了一些企业级应用的集成。

有两个关注度较高的Hadoop发行版，分别由亚马逊和微软发布。两者都提供Hadoop的预安装版本，运行于相应的云服务平台(Amazon or Azure)，提供PaaS服务。它们都提供了扩展服务，允许开发人员不仅能够利用Hadoop的本地HDFS，也可以通过HDFS映射利用微软和雅虎的数据存储机制(Amazon的S3，和Azure的Windows Azure存储机制)。亚马逊还提供了，在S3上面保存和恢复HBase内容的功能。

表1-1展示了主要的Hadoop发行版的主要特点。

表1：不同的Hadoop供应商

当然，大量的发行版让你疑惑“我应该使用哪个发行版?”当公司/部门决定采用一个具体的版本时，应该考虑以下几点：

技术细节——包括Hadoop的版本、组件、专有功能部件等等。

易于部署——使用工具箱来实现管理的部署、版本升级、打补丁等等。

易于维护——主要包括集群管理、多中心的支持、灾难恢复支持等等。

成本——包括针发行版的实施成本、计费模式和许可证。

企业集成的支持——Hadoop应用程序与企业中其他部分的集成。

版本的选择依赖于，你打算利用Hadoop来解决哪些问题。本书中的讨论与版本无关，因为笔者看中的是每个发行版提供的价值。

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取