在JavaEye上看到了篇文章“淘宝网正式宣布向全球开放淘宝原始数据 ”。
于是到相关的页面上浏览了一下 http://data.taobao.com/
以下是几点感受:
感觉Taobao现在真是做得很不错。不光技术上很强大,在商业上也有很独到的眼光,两者相辅相成,有前途。以前国内也有一些互联网公司将自己的数据公开,但大部分的出发点都是从开源的角度考虑,并且数据多用于学术研究(以前做NLP的时候用过一些)。而淘宝的开发数据更多的是站在商业的角度上。最早做平台,平台做大了就开始卖数据了。
虽然说是卖数据,但其实并不是最原始的数据(raw data),而是提供了一个数据分析的平台,用户可以拿到一些预先生成的报表。似乎也没有开放的API可以调用。我依稀记得如facebook之类的网站是可以通过API直接获取数据的,不知道taobao是否也会这样。
三个模块:数据之美,数据魔方和量子统计。数据之美不过是一些统计信息的visualization,没什么可讲。数据魔方是对行业信息的统计和分析,其实是为企业级用户服务的。厂商可以根据这些数据的反馈来改进自己的产品。量子统计则是对单个店铺的全方位分析,服务的对象是taobao上的店铺经营者,通过分析可以知道什么样的产品更好卖...等等。
看到datacube(数据魔方)就猜测后台应该是一个大的data warehouse。于是就浏览了一下taobao的招聘信息。果然data warehouse相关的职位占到了3-4个。基于这些信息对它的后台肆意猜测一下:
UNIX/linux操作系统;
主要语言肯定是java,因为大部分职位都要求java,且taobao网站是有名的基于java的架构;
data warehouse使用的数据库应该是Oracle的产品,在data warehouse方面开源的产品还是要比大厂的差不少吧;
除了Oracle,还用到了MySql,猜测其用途主要是一些backup的工作,或者存储一些非核心数据;
招收“hadoop工程师”,所以应该是用hadoop作了一些很耗时和复杂的查询,结合上一点,hadoop的底层存储也许替换成了MySql;
感慨一句,看了taobao的平台,谁还会说data warehouse华而不实呢。
淘宝数据开放平台解析

被折叠的 条评论
为什么被折叠?



