Hadoop编年史

道恩 卡丁

2002 年 10 月,Doug Cutting 和 Mike Cafarella 创建了开源网页爬虫项目 Nutch。
2003 年 10 月,Google 发表 Google File System 论文。
2004 年 7 月,Doug Cutting 和 Mike Cafarella 在 Nutch 中实现了类似 GFS 的功能,即后来 HDFS 的前身。
2004 年 10 月,Google 发表了 MapReduce 论文。
2005 年 2 月,Mike Cafarella 在 Nutch 中实现了 MapReduce 的最初版本。
2005 年 12 月,开源搜索项目 Nutch 移植到新框架,使用 MapReduce 和 NDFS(Nutch Distributed File System ) 来运行,在 20 个节点稳定运行。

Hadoop
2006 年 1 月,Doug Cutting 加入雅虎,Yahoo! 提供一个专门的团队和资源将 Hadoop 发展成一个可在网络上运行的系统。
2006年 2月,Apache Hadoop项目正式启动以支持 MapReduce和 HDFS 的独立发展。
2006 年 2 月,Yahoo! 的网格计算团队采用 Hadoop。
2006 年 3 月,Yahoo! 建设了第一个 Hadoop 集群用于开发。
2006 年 4 月,第一个 Apache Hadoop 发布。
2006 年 4 月,在 188 个节点上(每个节点 10GB)运行排序测试集需要 47.9 个小时。
2006 年 5 月,Yahoo! 建立了一个 300 个节点的 Hadoop 研究集群。
2006 年 5 月,在 500 个节点上运行排序测试集需要 42 个小时(硬件配置比 4 月的更好)。
2006 年 11 月,研究集群增加到 600 个节点。
2006 年 11 月,Google 发表了 Bigtable 论文,这最终激发了 HBase 的创建。
2006 年 12 月,排序测试集在 20 个节点上运行 1.8 个小时,100 个节点上运行 3.3 小时,500 个节点上运行 5.2 小时,900 个节点上运行 7.8 个小时。
2007 年 1 月,研究集群增加到 900 个节点。
2007 年 4 月,研究集群增加到两个 1000 个节点的集群。
2007年 10月,第一个 Hadoop**** 用户组会议召开,社区贡献开始急剧上升。
2007 年,百度开始使用 Hadoop 做离线处理。
2007 年,中国移动开始在“大云”研究中使用 Hadoop 技术。
2008 年,淘宝开始投入研究基于 Hadoop 的系统——云梯,并将其用于处理电子商务相关数据。
2008年 1月,Hadoop成为 Apache顶级项目。
2008 年 2 月,Yahoo! 运行了世界上最大的 Hadoop 应用,宣布其搜索引擎产品部署在一个拥有 1 万个内核的 Hadoop 集群上。
2008 年 4 月,在 900 个节点上运行 1TB 排序测试集仅需 209 秒,成为世界最快。
2008 年 6 月,Hadoop 的第一个 SQL 框架——Hive 成为了 Hadoop 的子项目。
2008 年 7 月,Hadoop 打破 1TB 数据排序基准测试记录。Yahoo! 的一个 Hadoop 集群用 209 秒完成 1TB 数据的排序 ,比上一年的纪录保持者保持的 297 秒快了将近 90 秒。
2008年 8月,第一个 Hadoop商业化公司 Cloudera成立。
2008 年 10 月,研究集群每天装载 10TB 的数据。
2008 年 11 月,Apache Pig 的最初版本发布。
2009 年 3 月,17 个集群总共 24000 台机器。
2009 年 3月,Cloudera推出世界上首个 Hadoop发行版——CDH(Cloudera’s Distribution including Apache Hadoop)平台,完全由开放源码软件组成。
2009 年 4 月,赢得每分钟排序,59 秒内排序 500GB(在 1400 个节点上)和 173 分钟内排序 100TB 数据(在 3400 个节点上)。
2009 年 5 月,Yahoo 的团队使用 Hadoop 对 1 TB 的数据进行排序只花了 62 秒时间。
2009 年 6 月,Cloudera 的工程师 Tom White 编写的《Hadoop 权威指南》初版出版,后被誉为 Hadoop 圣经。
2009 年 7 月 ,Hadoop Core 项目更名为 Hadoop Common;
2009 年 7 月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为 Hadoop 项目的独立子项目。
2009 年 7 月 ,Avro 和 Chukwa 成为 Hadoop 新的子项目。
2009 年 8 月,Hadoop 创始人 Doug Cutting 加入 Cloudera 担任首席架构师。
2009 年 10 月,首届 Hadoop World 大会在纽约召开。
2010 年 5 月 ,Avro 脱离 Hadoop 项目,成为 Apache 顶级项目。
2010 年 5 月 ,HBase 脱离 Hadoop 项目,成为 Apache 顶级项目。
2010 年 5 月,IBM 提供了基于 Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。
2010 年 9 月,Hive( Facebook) 脱离 Hadoop,成为 Apache 顶级项目。
2010 年 9 月,Pig 脱离 Hadoop,成为 Apache 顶级项目。
2010年 -2011年,扩大的 Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume**,Oozie等)来扩展 Hadoop的使用场景和可用性。**
2011 年 1 月,ZooKeeper 脱离 Hadoop,成为 Apache 顶级项目。
2011 年 3 月,Apache Hadoop 获得 Media Guardian Innovation Awards 。
2011 年 3 月, Platform Computing 宣布在它的 Symphony 软件中支持 Hadoop MapReduce API。
2011年 5月,Mapr Technologies公司推出分布式文件系统和 MapReduce引擎——MapR Distribution for Apache Hadoop。
2011 年 5 月,HCatalog 1.0 发布。该项目由 Hortonworks 在 2010 年 3 月份提出,HCatalog 主要用于解决数据存储、元数据的问题,主要解决 HDFS 的瓶颈,它提供了一个地方来存储数据的状态信息,这使得 数据清理和归档工具可以很容易的进行处理。
2011 年 4 月,SGI(Silicon Graphics International)基于 SGI Rackable 和 CloudRack 服务器产品线提供 Hadoop 优化的解决方案。
2011 年 5 月,EMC 为客户推出一种新的基于开源 Hadoop 解决方案的数据中心设备——GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum 是 EMC 在 2010 年 7 月收购的一家开源数据仓库公司。
2011 年 5 月,在收购了 Engenio 之后, NetApp 推出与 Hadoop 应用结合的产品 E5400 存储系统。
2011 年 6 月,Calxeda 公司发起了“开拓者行动”,一个由 10 家软件公司组成的团队将为基于 Calxeda 即将推出的 ARM 系统上芯片设计的服务器提供支持。并为 Hadoop 提供低功耗服务器技术。
2011 年 6 月,数据集成供应商 Informatica 发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持 Hadoop。
2011年 7月,Yahoo!和硅谷风险投资公司 Benchmark Capital创建了 Hortonworks 公司,旨在让 Hadoop更加可靠,并让企业用户更容易安装、管理和使用 Hadoop。
2011 年 8 月,Cloudera 公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用 Hadoop 更好的洞察数据。
2011 年 8 月,Dell 与 Cloudera 联合推出 Hadoop 解决方案——Cloudera Enterprise。Cloudera Enterprise 基于 Dell PowerEdge C2100 机架服务器以及 Dell PowerConnect 6248 以太网交换机。
2012 年 3 月,企业必须的重要功能 HDFS NameNode HA 被加入 Hadoop 主版本。
2012 年 8 月,另外一个重要的企业适用功能 YARN 成为 Hadoop 子项目。
2012 年 10 月,第一个 Hadoop 原生 MPP 查询引擎 Impala 加入到了 Hadoop 生态圈。
2014年 2月,Spark逐渐代替 MapReduce成为 Hadoop的缺省执行引擎,并成为 Apache基金会顶级项目。
2015 年 2 月,Hortonworks 和 Pivotal 抱团提出“Open Data Platform”的倡议,受到传统企业如 Microsoft、IBM 等企业支持,但其它两大 Hadoop 厂商 Cloudera 和 MapR 拒绝参与。
2015 年 10 月,Cloudera 公布继 HBase 以后的第一个 Hadoop 原生存储替代方案——Kudu。
2015 年 12 月,Cloudera 发起的 Impala 和 Kudu 项目加入 Apache 孵化器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

真香IT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值