企业如何确定自己的业务是否适合使用Hadoop?

企业如何确定自己的业务是否适合使用Hadoop?

  在看到越来越多的用户开始使用Hadoop进行数据价值的挖掘时,一些企业也开始蠢蠢欲动,然而,究竟怎样的应用适合放到Hadoop上?韩轶平从应用和数据的角度上进行了分析。

  IT168:Hadoop对于业务的针对性还是比较强的,如果我是一个用户的话,怎么才能确定我的应用是不是适合放到Hadoop平台?

  韩轶平:第一点,Hadoop直到今天,它都不是一个实时的在线系统,它更多的还是针对离线的、大规模的、批量的数据处理。虽然我们基于Hadoop做了很多的新的技术和优化,已经让等待时间变得很短,Facebook已经做到大概10秒左右,雅虎也能做到这种近实时的,但即使是这样,我们还是要认清一点,Hadoop一是个离线的、批量的数据处理系统。

  第二点,从数据处理的角度来讲,数据处理的业务要有很大的并行性,能够适应MapReduce这个模型,这也是一个潜在的、必须的要求。在数据存储的角度,HDFS是针对大文件的,也有比较长的等待时间,它并不能做到很高速的随即读写,文件不可改写,有这些基本的性质在那儿,所以从企业来讲,也必须抓住这些基本点,看看你的应用到底是不是需要大量小文件读写,是不是需要频繁地改写文件。真正要做到一个很对的判别,很好的方法就是找一些专家进行咨询和交流。

  以金融行业为例,用Hadoop来做实时的银行业务的处理,未必很合适,因为Hadoop没有很好的实时性,它的安全性目前来讲还是跟商业数据还是没法比的,但是另一方面,如果要做批量的数据处理,比如每天晚上的日常的数据处理工作,进行一些用户信息的挖掘,这就很适合使用Hadoop。

  回到我们今年大会主题——海量数据掘宝,“掘宝”这两个字很重要,海量数据是一方面,Hadoop确实能帮助你存储海量数据,那另一方面掘宝是一个核心,你用Hadoop可以做很多的数据挖掘、数据整理的工作,从中发现一些的价值,这个我觉得是最合适的。

  IT168:对于数据量不是很大的企业,是不是不太适合使用Hadoop呢?

  韩轶平:从小企业来讲,第一点,要看清楚自己的发展前景,尤其是数据的发展前景,数据是活的东西,它会增长。所以你如果能够预测到将来的数据,很可能有很大的增长,比如说今天处理1个G的数据,将来有可能会变成100个T,在这种情况下,你是不是就可以考虑使用类似于Hadoop这样的技术。

  第二点,Hadoop的部署、开发、学习成本都会比较低,从这些方面上,Hadoop也有自己的优势。

  第三点,今天的Hadoop跟我们最早的Hadoop是两个不同的概念了。其实Hadoop现在已经演变成一个庞大的生态系统了,不同的技术有不同的用途,我们可以根据自己的需求来使用其中的技术。例如,Zookeeper这个Hadoop的子项目,现在已经被广泛的用于各种非Hadoop的分布式系统中。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值