Hadoop：大数据时代的解决方案-优快云博客

随着数据量的爆炸性增长，传统的数据处理工具已难以应对。Hadoop作为一款开源分布式计算平台，以其核心组件HDFS和MapReduce，解决了TB级别和PB级别数据的存储与处理难题，成为大数据分析领域的关键工具。

2019独角兽企业重金招聘Python工程师标准>>>

数据！数据！数据！
今天，我们正被数据包围。全球43 亿部电话、20 亿位互联网用户每秒都在不断地产生大量数据，人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等，使得机器产生和保留了越来越多的数据。数据的指数级增长对处于市场领导地位的互联网公司，如Facebook、谷歌、雅虎、亚马逊、腾讯等提出了挑战。它们需要对TB 级别和PB 级别的数据进行分析处理，以发现哪些网站更受欢迎，哪些商品更具有吸引力，哪些广告更吸引用户。传统的工具对于处理如此规模的数据集越来越无能为力。
现在，Hadoop 应运而生，庞大的信息流有了新的处理平台。

Hadoop 是Apache 基金会下的一个开源分布式计算平台，以Hadoop 分布式文件系统（Hadoop Distributed File System，HDFS）和MapReduce 分布式计算框架为核心，为用户提供了底层细节透明的分布式基础设施。HDFS 的高容错性、高伸缩性等优点，允许用户将Hadoop 部署在廉价的硬件上，构建分布式系统；MapReduce 分布式计算计算框架则允许用
户在不了解分布式系统底层细节的情况下开发并行、分布的应用程序，充分利用大规模的计算资源，解决传统高性能单机无法解决的大数据处理问题。
Apache Hadoop 是目前分析海量数据的首选工具。

转载于:https://my.oschina.net/mjhuang/blog/273478