大数据：Hadoop族群介绍

最新推荐文章于 2020-12-17 09:33:32 发布

原创

最新推荐文章于 2020-12-17 09:33:32 发布 · 519 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #程序员 #编程语言 #hadoop

Hadoop是开源的分布式系统基础架构，尤其适合处理和存储大规模数据。它由HDFS和MapReduce组成，提供可靠的数据存储和高性能并行处理。Hadoop族群包括MapReduce、HDFS、HBase、Pig等，这些组件共同实现大数据的高效分析。Hadoop通过数据本地化优化提高性能，允许实时访问和处理超大规模数据集，是大数据处理的关键技术。

大数据是支持一系列技术(如各种Hadoop项目、NoSQL产品，甚至MPP数据库系统)的术语，它通过驱动更好的分析和从数据中获得有价值的信息为世界各地的组织机构极大地降低了成本，同时提供了新的见解和产品。
大数据是支持一系列技术(如各种Hadoop项目、NoSQL产品，甚至MPP数据库系统)的术语，它通过驱动更好的分析和从数据中获得有价值的信息为世界各地的组织机构极大地降低了成本，同时提供了新的见解和产品。在经济衰退时期，企业更希望从己有资产中获得更大的价值，而不是投资新的资产。大数据，特别是Hadoop,就是实现这个目标的理想手段。

什么是Hadoop?

hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

2006年Hadoop项目诞生。Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目，后来因其技术的高效性，被ApacheSoftware Foundation公司引入并成为开源应用。Hadoop本身不是一个产品，而是由多个软件产品组成的一个生态系统，这些软件产品共同实现全面功能和灵活的大数据分析。Hadoop为用户提供了一个可靠的共享存储和分析系统。从技术上看，Hadoop由两项关键服务构成：采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务，以及利用一种叫做MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是，提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。

为什么要用Hadoop?

关系型数据库(RDBMS)大部分价格高昂，要用RDBMS存储不停增长的大数据，就必须无限量的扩充存储容量。相比之下，Hadoop是开源软件，无需license，只要是X86 CPU linux操作系统的话，都可以安装Hadoop。现在的RDBMS采取的是在储存数据的服务器中集中处理数据的方式;而Hadoop是将数据储存在多台的服务器中，在存储数据的多台服务器中同时处理数据。

九十年代的硬盘拥有1370MB的存储空间和4.4MB/s的传送速度，读取整个硬盘数据需要的时间为五分钟;现在的硬盘拥有1TB的存储和100MB/s左右的传输速度，读取整个硬盘数据的时间需要两个半小时以上。

硬盘的容量增长迅速，但是access数据库管