我眼中的hadoop(1-4)_心中的hadoop-优快云博客

进入搜索引擎公司，让DC燃起了对搜索的兴趣，但不是谁对搜索有兴趣就能做出来个Lucene，只有那些善于把握机会，有想法并敢于付诸实践的人可以做出来，显然，DC属于这样的一个人。虽然Lucene已经诞生，但不过是一套开发搜索的API，离真正的产品还有很大一段距离，因为只有产品，才可以更好更快地影响世界。寄托着DC的产品梦，Nutch横空出世。后面的故事大家都知道了，DC实现一套大家都会用的搜索引擎。

1.2.思考与行动的巨人

可能我把DC称为思考与行动的巨人有点夸张了，不过他对于搜索技术，及其云计算的普及，让他们进入寻常公司的确功不可没。普及一词，分量甚重，如比尔盖茨普及PC，将这一只有军事，科研机构才能用到的高科技产品带入寻常百姓家。

对搜索的贡献大家已经知道，而对于云计算的普及是通过hadoop这一大数据计算平台来完成的。

Hadoop的诞生是借鉴google关于mapreduce与GFS的公开论文。这两个系统在google内部是为搜索服务的，DC之前也刚好做了Nutch开源搜索，DC嗅觉敏锐，及时感觉到了该技术可以解决的搜索技术很重要的计算问题，于是立即行动编写出hadoop，并将其用于Nutch中。如果DC没有对行业的深刻认识，思考，与立即行动而满于现状，可能hadoop就不一定是由他来完成的了。

1.3.hadoop注定是美国血统

技术的进步与社会，经济的发展是分不开的，2004年的美国社会发达程度要比世界其他国家高很多，PC互联网已经得到极大的普及，老百姓有极大的需求通过互联网来获取知识。搜索的出现可以间接推断出当时全球互联网网站已经很多了。

当时美国的互联网大公司，就只有yahoo与google,ebay等，amazon还是个小公司，facebook刚刚诞生，twitter还没孕育。Google作为一个web2.0新生代搜索公司，每天需要处理全球大量数据，而yahoo当时主要是地址分类整理，搜索功能很弱。因此google诞生了大数据处理工具，然后才会有hadoop。而此时的中国，虽然已经有了新浪，网易，腾讯，百度，阿里，但是互联网用户还相对较少。百度也是搜索公司，不过只提供中文网站的搜索。至于当时他们如何进行大规模数据处理，不得而知。他们当时也读google的论文了吧，是否有想过克隆一个“hadoop”？

2.yahoo养大的儿子

2.1.爱他就给他需要的

Hadoop诞生后，DC清楚如果要hadoop发展得很好，必须为它找一个好东家，应该尝试过找ibm这些公司，由于ibm这类公司的客户主要服务于电信，电力，金融等行业，虽然也产生很多数据，但是那时候还没意识到大数据的价值，google肯定不需要hadoop，于是yahoo成了最佳候选。因为当时yahoo是世界上最大的门户网站，每天有全球最多的访问量，广告是公司主要收入，因此有大量数据需要借助hadoop进行处理，同时当时在业界，yahoo被认为是极其优秀的公司，只要yahoo推广的产品，都能极大地得到业界认同。而DC也需要有这样一个舞台证明hadoop是可以的。于是DC选择进入yahoo，把hadoop“养大“。从此hadoop跟了个好爹，变成了富二代。

2.2.养子也能成材

随着DC加入yahoo，hadoop取得了快速的发展，先是hadoop加入apache，将其开源出去，来获得大家的关注与支持，同时yahoo内部集群发展越来越大，计算速度也越来越好，且系统也更加稳定。yahoo的使用经历向业界证明hadoop是优秀，稳定的，可以解决公司大数据计算问题。从而这个富二代开始越走越远。DC通过进入yahoo来推广hadoop技术的经历告诉我们：有时候“傍大款“可以走得更快，更远。于是在2007年左右，hadoop通过口碑及其互联网传播也来到了中国。最开始应用的也是一批搞搜索的公司。

3.为什么没有出现hadoop2

从市场的角度来看，有需要就会有供给，google作为一个“大数据公司“，已经证明hadoop架构模式可以解决大数据存储计算问题。从而才会有后面的hadoop诞生，可以说从一开始hadoop就是一个大数据计算的强需求，而不是可有可无的需求。要知道解决好了一个强需求，它的市场空间会是惊人的。为什么有很多公司专注于人的衣食住行创业而取得了极大地成功？为什么tencent，facebook，twitter等能取得极大地成功？也是因为他们解决了人最基本的生存，交流沟通的强需求。hadoop是一个经过google，yahoo验证的强需求，并且能够得到业界广泛支持，当然就能够走得很远。

回到为什么没有hadoop2出现（这儿hadoop2指的是跟hadoop解决一样问题的产品）？

前面我们已经提到，hadoop本身已经很优秀，能够很好地解决大家的大数据离线计算的问题，并且已经获得相当规模的粉丝。这种情况下，企业或者开发者很难再接受一个跟hadoop类似的产品，除非这个产品比hadoop优秀很多，并能够解决hadoop不能解决的问题，否则即使付出巨大的人力，财力，也不一定有什么收获。这样的例子太多了，android与windows phone，百度与搜搜，有道，淘宝与拍拍。微信出现之前，其他公司早已经有类似产品了，为什么他们没成功反而被微信超越了，就是因为他们没有足够优秀，同时没巨大的人力，财力，生态等做支持。其实从这儿也可以总结出懂技术不一定懂产品，更不一定懂市场。

舞台注定只有一个，但是演员却可以有多个，Hadoop生态系统蓬勃发展，进入百花齐放的状态，hbase，hive，pig等都得到了大量的用户，hadoop在其中不仅扮演了一个舞台的角色，同时也扮演了一个好的演员。

4.hadoop来中国了

技术是没有国界的，DC点燃的这把星星之火，在yahoo等公司的帮助下迅速形成燎原之势，2007年左右，hadoop来到了中国，最开始被一批大型互联网公司使用起来进行数据分析。搜索类公司，使用其解决海量数据分析，以及创建索引；电子商务类公司，不仅用于分析消费者购物行为，也用户统计商品销售趋势以更合理地备货；社交类公司，分析用户社交关系，以及兴趣爱好，然后向其推荐感兴趣的内容。当然并不是说不同类别的公司数据分析的方向完全不一样，大家也会做一些类似的事，比如都要分析各自用户行为，同时随着竞争加剧，也会分析竞争对手各方面的情况。

中国企业大致分为私企与国企，私企与国企又分为大公司与中小型公司。除非专门做大数据服务，否则中小型公司没有大规模数据，不需要使用hadoop。为什么hadoop都是运用在这些大型私有互联网企业呢？首先这些公司业务本身就有这个需求，另外他们所在的行业竞争激烈，需要了解对手以知己知彼；而对于大型国企，他们本来把控的都是水，电，油，通信等垄断行业，不需要分析竞争对手。随着金融等行业的逐渐开放,他们可能会重新调整自己的定位,并与第三方公司合作来完成大数据分析。DC出走yahoo进入cloudera也就是看到这个商机。就目前国外hadoop使用情况来看，以及这些公司本身就是传统行业，因此他们只会是hadoop的使用者或被服务者，而不会是弄潮儿。

刚才提到cloudera，它是一家围绕hadoop生态圈为传统行业（大型国企，大型私企）提供大数据技术支持的公司。因为目前国内企业级公有云发展还不成熟（保包含信任，技术，法律），因此这些传统行业更多还是采用类似cloudera的服务，不过我相信随着云计算发展，大家慢慢会接受购买公有云计算服务，这就像自从阿里解决支付问题后，我们真正接受网上购物一样。就看哪个公司站出来能够解决大家疑虑的数据安全问题。

后面的章节请见：http://blog.youkuaiyun.com/liuhong1123/article/details/16945617

欢迎转载，并请注明出处