Doug Cutting 预言了Hadoop将不断向前发展,以及预言了围绕hadoop生态系统的产生的机遇。
Hadoop经过10年的发展,如今Hadoop生态系统非常庞大,同时一直在改进。InfoWorld 的 Andy Oliver就目前的情况,“关于Hadoop你需要知道的最重要的一件事是以后再也没有Hadoop了”—至少,不再是以前我们熟知的Hadoop了。
Hadoop的共同创造者Doug Cutting(如今在Cloudera),他认为这个改变不仅是作为一个正面的改进,而且是作为对Hadoop开源的来源和设计的证明。
在与InfoWorld电话交谈时,Cutting提到“许多开源项目形成的松散联盟也能实现根本性的革命。”在这个联盟里,市场决定了哪些组件将会被使用。
随着时间的流逝,Hadoop生态系统的单个部分已经发展超出Hadoop本身的范围。正如以下这个例子:Spark,作为实时数据处理架构,已经发展成为独立运作的支持者。
Hadoop之父Doug Cutting
但是,Cutting认为Hadoop的其他功能可以实现很多Spark目前仍做不到的事情。他说:“Spark是一款很棒的执行引擎,我们可以看到大部分的Spark应用,是作为Hadoop分布式文件系统HDFS的上层应用。”( Spark 典型的取代了已经过时的MapReduce引擎,与Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)或者分布式计算框架Mesos一起工作,有时候同时与两者一起作为一个计划进行)
但是Cutting强调:“还有许多事情Spark是做不到的。”比如:它不是一个全文本搜索引擎;是Solr在Hadoop里扮演着这个角色。它可以运行SQL查询对抗Spark,但是它没有被设计成一个交互式查询系统,对此,Cutting提出,Impala可以实现交互查询。
如果你只是要需要进行streaming 编程或者batch 编程,那么你需要一个执行引擎,Spark就是很棒的一个。但是人们想做的事情远不止于此,他们想实现交互式SQL(结构化查询语言),他们想实现搜索,他们想做各种涉及系统的实时处理,如Kafka(一种高吞吐量的分布式发布订阅消息系统)…我认为那些认为Spark就是整个堆的人是确实存在的少数情况。
随着时间流逝不得已做出了另外一个改变—针对安全问题。创造Hadoop的灵感来源于Yahoo 的内部工具,所以Hadoop起初没有考虑完全问题,尤其是不具备企业级产品细化RBAC(基于角色的访问控制,Role-Based Access Control)类型的安全保障条件。Cutting说:“人们创建Web搜索引擎,并尝试通过设置防火墙提高安全性。”但是他提出,现在Hadoop的细粒度是足够的,并针对表或者表中单元格,已经使ACLs(访问控制列表,Access Control List) 成为Hadoop的一部分。
Hadoop的革命,它对于系统中已经存在的数据保护有什么含义?Cutting说:“我们已经看到了,而且很多。因为人们在投入某物进行生产之前,存储数据之前,他们被要求组织起来解决数据的安全问题。而且在构建他们的保护措施的时候,在这之上已经有了一个限制器。”现在Hadoop已经拥有越来越多的安全特性,Cutting说:“它可以在更多的地方被使用了”
Cutting提到关于Hadoop应用的另外两个限制器:用户的技能,以及企业新建系统的工作效率。Cutting说:“不是每个人都能在工具开发上跟的上步伐,对于企业而言,他们主要运行的是既有系统,每年不需要重写任何东西,所以做那些事情是很费时间的。”
尽管面临这些困难,但是Cutting对Hadoop生态系统内部源源不断的活力将会令系统保持健康充满信心。由Cloudera开发的Kudu文件系统融合了HDFS与HBase的功能特征。“Kudu文件系统展示了生态系统是如何演变的。”Cutting补充。
虽然Kudu具备技术上的透明,也被一些Cloudera客户使用进行生产。但是Cutting也提出Kudu已经被其他Hadoop引擎整合,包括Apache Drill(不属于Cloudera )。
“其他人已经选择并拥抱kudu,选择它是明智的,在某种意义上,它是一款有趣的工具”。
本文作者Serdar Yegulalp是InfoWorld的资深记者,关注InfoWorld技术观察新闻分析博客和定期评论。本文译自InfoWorld
来源:36大数据 http://www.36dsj.com/archives/41847的转载均为侵权。