前言
1-3写到了hadoop的诞生,通过何种方式发展壮大,及其为什么没有被其他系统取代,之所以写这部分想梳理一下hadoop为什么不是别人而是由DC来完成,同时DC通过何种方式将自己的产品发展壮大,最后变得不可取代;
4写到了hadoop在国内的发展;
5-6写到为什么没有一个可以解决所有问题的存储系统,及其HDFS的优点缺点,希望通过这部分梳理清楚在任何行业都没有全能型选手,而只能是某方面的能手,当然软件行业也不例外;
7写到了百味的运维工作,通过自己亲身经历来分享运维中的点滴。
1.Doug Cutting生下了个hadoop
1.1.有其父才有其子
我们现在都知道,DC是Lucene、Nutch、Hadoop项目的创始人,创建了3个成功的项目,可以算连续创业成功的人物。从其简历可以看到,该人在大学时期就涉猎广泛,注重实践,同时利用业余时间尝试靠自己的勤劳智慧挣助学贷款,应该也是在这时候DC有了挣钱方式的启蒙,及其产品,服务或者市场的初步想法。
进入搜索引擎公司,让DC燃起了对搜索的兴趣,但不是谁对搜索有兴趣就能做出来个Lucene,只有那些善于把握机会,有想法并敢于付诸实践的人可以做出来,显然,DC属于这样的一个人。虽然Lucene已经诞生,但不过是一套开发搜索的API,离真正的产品还有很大一段距离,因为只有产品,才可以更好更快地影响世界。寄托着DC的产品梦,Nutch横空出世。后面的故事大家都知道了,DC实现一套大家都会用的搜索引擎。
1.2.思考与行动的巨人
可能我把DC称为思考与行动的巨人有点夸张了,不过他对于搜索技术,及其云计算的普及,让他们进入寻常公司的确功不可没。普及一词,分量甚重,如比尔盖茨普及PC,将这一只有军事,科研机构才能用到的高科技产品带入寻常百姓家。
对搜索的贡献大家已经知道,而对于云计算的普及是通过hadoop这一大数据计算平台来完成的。
Hadoop的诞生是借鉴google关于mapreduce与GFS的公开论文。这两个系统在google内部是为搜索服务的,DC之前也刚好做了Nutch开源搜索,DC嗅觉敏锐,及时感觉到了该技术可以解决的搜索技术很重要的计算问题,于是立即行动编写出hadoop,并将其用于Nutch中。如果DC没有对行业的深刻认识,思考,与立即行动而满于现状,可能hadoop就不一定是由他来完成的了。
1.3.hadoop注定是美国血统
技术的进步与社会,经济的发展是分不开的,2004年的美国社会发达程度要比世界其他国家高很多,PC互联网已经得到极大的普及,老百姓有极大的需求通过互联网来获取知识。搜索的出现可以间接推断出当时全球互联网网站已经很多了。
当时美国的互联网大公司,就只有yahoo与google,ebay等,amazon还是个小公司,facebook刚刚诞生,twitter还没孕育。Google作为一个web2.0新生代搜索公司,每天需要处理全球大量数据,而yahoo当时主要是地址分类整理,搜索功能很弱。因此google诞生了大数据处理工具,然后才会有hadoop。而此时的中国,虽然已经有了新浪,网易,腾讯,百度,阿里,但是互联网用户还相对较少。百度也是搜索公司,不过只提供中文网站的搜索。至于当时他们如何进行大规模数据处理,不得而知。他们当时也读google的论文了吧,是否有想过克隆一个“hadoop”?
2.yahoo养大的儿子
2.1.爱他就给他需要的
Hadoop诞生后,DC清楚如果要hadoop发展得很好,必须为它找一个好东家,应该尝试过找ibm这些公司,由于ibm这类公司的客户主要服务于电信,电力,金融等行业,虽然也产生很多数据,但是那时候还没意识到大数据的价值,google肯定不需要hadoop,于是yahoo成了最佳候选。因为当时yahoo是世界上最大的门户网站,每天有全球最多的访问量,广告是公司主要收入,因此有大量数据需要借助hadoop进行处理,同时当时在业界,yahoo被认为是极其优秀的公司,只要yahoo推广的产品,都能极大地得到业界认同。而DC也需要有这样一个舞台证明hadoop是可以的。于是DC选择进入yahoo,把hadoop“养大“。从此hadoop跟了个好爹,变成了富二代。
2.2.养子也能成材
随着DC加入yahoo,hadoop取得了快速的发展,先是hadoop加入apache,将其开源出去,来获得大家的关注与支持,同时yahoo内部集群发展越来越大,计算速度也越来越好,且系统也更加稳定。yahoo的使用经历向业界证明hadoop是优秀,稳定的,可以解决公司大数据计算问题。从而这个富二代开始越走越远。DC通过进入yahoo来推广hadoop技术的经历告诉我们:有时候“傍大款“可以走得更快,更远。于是在2007年左右,hadoop通过口碑及其互联网传播也来到了中国。最开始应用的也是一批搞搜索的公司。
3.为什么没有出现hadoop2
从市场的角度来看,有需要就会有供给,google作为一个“大数据公司“,已经证明hadoop架构模式可以解决大数据存储计算问题。从而才会有后面的hadoop诞生,可以说从一开始hadoop就是一个大数据计算的强需求,而不是可有可无的需求。要知道解决好了一个强需求,它的市场空间会是惊人的。为什么有很多公司专注于人的衣食住行创业而取得了极大地成功?为什么tencent,facebook,twitter等能取得极大地成功?也是因为他们解决了人最基本的生存,交流沟通的强需求。hadoop是一个经过google,yahoo验证的强需求,并且能够得到业界广泛支持,当然就能够走得很远。
回到为什么没有hadoop2出现(这儿hadoop2指的是跟hadoop解决一样问题的产品)?
前面我们已经提到,hadoop本身已经很优秀,能够很好地解决大家的大数据离线计算的问题,并且已经获得相当规模的粉丝。这种情况下,企业或者开发者很难再接受一个跟hadoop类似的产品,除非这个产品比hadoop优秀很多,并能够解决hadoop不能解决的问题,否则即使付出巨大的人力,财力,也不一定有什么收获。这样的例子太多了,android与windows phone,百度与搜搜,有道,淘宝与拍拍。微信出现之前,其他公司早已经有类似产品了,为什么他们没成功反而被微信超越了,就是因为他们没有足够优秀,同时没巨大的人力,财力,生态等做支持。其实从这儿也可以总结出懂技术不一定懂产品,更不一定懂市场。
舞台注定只有一个,但是演员却可以有多个,Hadoop生态系统蓬勃发展,进入百花齐放的状态,hbase,hive,pig等都得到了大量的用户,hadoop在其中不仅扮演了一个舞台的角色,同时也扮演了一个好的演员。
4.hadoop来中国了
技术是没有国界的,DC点燃的这把星星之火,在yahoo等公司的帮助下迅速形成燎原之势,2007年左右,hadoop来到了中国,最开始被一批大型互联网公司使用起来进行数据分析。搜索类公司,使用其解决海量数据分析,以及创建索引;电子商务类公司,不仅用于分析消费者购物行为,也用户统计商品销售趋势以更合理地备货;社交类公司,分析用户社交关系,以及兴趣爱好,然后向其推荐感兴趣的内容。当然并不是说不同类别的公司数据分析的方向完全不一样,大家也会做一些类似的事,比如都要分析各自用户行为,同时随着竞争加剧,也会分析竞争对手各方面的情况。
中国企业大致分为私企与国企,私企与国企又分为大公司与中小型公司。除非专门做大数据服务,否则中小型公司没有大规模数据,不需要使用hadoop。为什么hadoop都是运用在这些大型私有互联网企业呢?首先这些公司业务本身就有这个需求,另外他们所在的行业竞争激烈,需要了解对手以知己知彼;而对于大型国企,他们本来把控的都是水,电,油,通信等垄断行业,不需要分析竞争对手。随着金融等行业的逐渐开放,他们可能会重新调整自己的定位,并与第三方公司合作来完成大数据分析。DC出走yahoo进入cloudera也就是看到这个商机。就目前国外hadoop使用情况来看,以及这些公司本身就是传统行业, 因此他们只会是hadoop的使用者或被服务者,而不会是弄潮儿。
刚才提到cloudera,它是一家围绕hadoop生态圈为传统行业(大型国企,大型私企)提供大数据技术支持的公司。因为目前国内企业级公有云发展还不成熟(保包含信任,技术,法律),因此这些传统行业更多还是采用类似cloudera的服务,不过我相信随着云计算发展,大家慢慢会接受购买公有云计算服务,这就像自从阿里解决支付问题后,我们真正接受网上购物一样。就看哪个公司站出来能够解决大家疑虑的数据安全问题。
后面的章节请见:http://blog.youkuaiyun.com/liuhong1123/article/details/16945617
欢迎转载,并请注明出处