转自:http://cloud.youkuaiyun.com/a/20111117/307657.html
MapReduce系统获得成功的原因之一是它为编写需要大规模并行处理的代码提供了简单的编程模式。它受到了Lisp的函数编程特性和其他函数式语言的启发。MapReduce和云计算非常相配。MapReduce的关键特点是它能够对开发人员隐藏操作并行语义 — 并行编程的具体工作方式。
但现今,MapReduce很难成为商务人士讨论大数据的方式。因为要使用MapReduce至少需要以下四种技能。
1.将商业问题转换为可分析解决的问题
2.将可分析解决的问题转换为MapReduce模型
3.调试、编码、优化MapReduce以处理数据的能力
4.具备Hadoop和MapReduce的丰富经验,并具备调试部署在Hadoop上代码的能力
在大数据时代下,使用传统的数据库进行查询、排序、定义、和提取数据时显得有些力不从心。而处理大数据业务的本质(如MapReduce)需要更多的技能。但大批雇佣这些高技能人才是不现实的。
SQL与MapReduce 传统与现代的结合
SQL对于编程专家和业务分析师用来查询数据来说是非常熟悉的模式。而MapReduce的魅力在于有能力处理程序方案中相对复杂的搜索查询。如果将两者结合起来会带来什么样的变化?
Aster已经提供了一种被称为SQL-MapReduce的框架,这个框架可以使数据科学家和商业分析师对复杂的信息进行快速调查分析,允许一组关联计算机(计算机群集)使用软件语言(如 Java、C#、Python、C++ 和 R)并行进行程序表达,然后通过标准SQL 激活(调用)使用。
而Greenplum提供支持SQL和MapReduce并行处理功能,并能以较低的成本处理TB量级到PB量级企业数据。Greenplum整合了MapReduce和SQL技术,并且将直接在Greenplum的并行数据流引擎(位于Greenplum数据引擎的中心)内部直接执行MapReduce和SQL。Greenplum MapReduce可以使程序员对储存在Greenplum数据引擎内部和外部的PB量级规模的数据集进行分析。带来的好处是应对不断增长的标准编程模型来满足关系数据库的可靠性和熟悉性。
同时像微软这样的领导厂商也参与其中。微软已经推出了Hadoop与SQL Server的连接工具,客户将能够在Hadoop、SQL Server和并行数据仓换环境下相互交换数据。与此同时,微软还与Hortonworks展开深度合作。其目的就是为了将Hortonworks在Hadoop领域的专长以及微软产品易用化的特性有机的结合起来,并简化下载、安装和配置等几个Hadoop的相关技术。
未来随着SQL和MapReduce技术结合的不断完善,MapReduce将变得更容易使用,并广泛的受到关注。相信我,时间会证明一切。