5、大数据与 Hadoop 技术详解

大数据与 Hadoop 技术详解

1. Hadoop 概述

Hadoop 在过去三到四年间,已成为大数据领域的事实标准。它起源于 2006 年 Apache Nutch 的一个子项目,引入了分布式文件系统和分布式计算(即 MapReduce)这两个关键特性,在开源社区迅速流行起来。如今,基于 Hadoop 核心特性开发的新产品多达数千种,它已发展成包含 150 多个相关主要产品的庞大生态系统。可以说,Hadoop 是推动大数据和分析行业发展的主要催化剂之一。

2. Hadoop 的起源

2006 年,Hadoop 的创造者 Doug Cutting 在雅虎工作,他积极参与一个名为 Nutch 的开源项目,该项目涉及大规模网络爬虫的开发。网络爬虫本质上是一种能自动浏览和索引互联网网页的软件,这需要对大量数据进行高效管理和计算。2006 年 1 月底,Doug 正式宣布 Hadoop 项目启动,最初的请求信息可在 https://issues.apache.org/jira/browse/INFRA - 700 查看,第一行内容为“Lucene PMC 已投票决定将 Nutch 的一部分拆分为一个名为 Hadoop 的新子项目”,至此,Hadoop 诞生。

最初,Hadoop 有两个核心组件:Hadoop 分布式文件系统(HDFS)和 MapReduce,这就是第一代 Hadoop,也称为 Hadoop 1。2012 年,第三个组件 YARN(Yet Another Resource Nego

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值