在JavaEye上看到了篇文章“淘宝网正式宣布向全球开放淘宝原始数据 ”。
于是到相关的页面上浏览了一下 http://data.taobao.com/
以下是几点感受:
感觉Taobao现在真是做得很不错。不光技术上很强大,在商业上也有很独到的眼光,两者相辅相成,有前途。以前国内也有一些互联网公司将自己的数据公开,但大部分的出发点都是从开源的角度考虑,并且数据多用于学术研究(以前做NLP的时候用过一些)。而淘宝的开发数据更多的是站在商业的角度上。最早做平台,平台做大了就开始卖数据了。
虽然说是卖数据,但其实并不是最原始的数据(raw data),而是提供了一个数据分析的平台,用户可以拿到一些预先生成的报表。似乎也没有开放的API可以调用。我依稀记得如facebook之类的网站是可以通过API直接获取数据的,不知道taobao是否也会这样。
三个模块:数据之美,数据魔方和量子统计。数据之美不过是一些统计信息的visualization,没什么可讲。数据魔方是对行业信息的统计和分析,其实是为企业级用户服务的。厂商可以根据这些数据的反馈来改进自己的产品。量子统计则是对单个店铺的全方位分析,服务的对象是taobao上的店铺经营者,通过分析可以知道什么样的产品更好卖...等等。
看到datacube(数据魔方)就猜测后台应该是一个大的data warehouse。于是就浏览了一下taobao的招聘信息。果然data warehouse相关的职位占到了3-4个。基于这些信息对它的后台肆意猜测一下:
UNIX/linux操作系统;
&nb