数据!数据!数据!
今天,我们正被数据包围。全球43 亿部电话、20 亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等,使得机器产生和保留了越来越多的数据。数据的指数级增长对处于市场领导地位的互联网公司,如Facebook、谷歌、雅虎、亚马逊、腾讯等提出了挑战。它们需要对TB 级别和PB 级别的数据进行分析处理,以发现哪些网站更受欢迎,哪些商品更具有吸引力,哪些广告更吸引用户。传统的工具对于处理如此规模的数据集越来越无能为力。
现在,Hadoop 应运而生,庞大的信息流有了新的处理平台。
Hadoop 是Apache 基金会下的一个开源分布式计算平台,以Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS) 和MapReduce 分布式计算框架为核心, 为用户提供了底层细节透明的分布式基础设施。HDFS 的高容错性、高伸缩性等优点,允许用户将Hadoop 部署在廉价的硬件上,构建分布式系统;MapReduce 分布式计算计算框架则允许用
户在不了解分布式系统底层细节的情况下开发并行、分布的应用程序,充分利用大规模的计算资源,解决传统高性能单机无法解决的大数据处理问题。
Apache Hadoop 是目前分析海量数据的首选工具。