淘宝的数据仓库

淘宝数据开放平台解析

在JavaEye上看到了篇文章“淘宝网正式宣布向全球开放淘宝原始数据 ”。

于是到相关的页面上浏览了一下 http://data.taobao.com/

以下是几点感受:

感觉Taobao现在真是做得很不错。不光技术上很强大,在商业上也有很独到的眼光,两者相辅相成,有前途。以前国内也有一些互联网公司将自己的数据公开,但大部分的出发点都是从开源的角度考虑,并且数据多用于学术研究(以前做NLP的时候用过一些)。而淘宝的开发数据更多的是站在商业的角度上。最早做平台,平台做大了就开始卖数据了。

虽然说是卖数据,但其实并不是最原始的数据(raw data),而是提供了一个数据分析的平台,用户可以拿到一些预先生成的报表。似乎也没有开放的API可以调用。我依稀记得如facebook之类的网站是可以通过API直接获取数据的,不知道taobao是否也会这样。

三个模块:数据之美,数据魔方和量子统计。数据之美不过是一些统计信息的visualization,没什么可讲。数据魔方是对行业信息的统计和分析,其实是为企业级用户服务的。厂商可以根据这些数据的反馈来改进自己的产品。量子统计则是对单个店铺的全方位分析,服务的对象是taobao上的店铺经营者,通过分析可以知道什么样的产品更好卖...等等。

看到datacube(数据魔方)就猜测后台应该是一个大的data warehouse。于是就浏览了一下taobao的招聘信息。果然data warehouse相关的职位占到了3-4个。基于这些信息对它的后台肆意猜测一下:

UNIX/linux操作系统;

主要语言肯定是java,因为大部分职位都要求java,且taobao网站是有名的基于java的架构;

data warehouse使用的数据库应该是Oracle的产品,在data warehouse方面开源的产品还是要比大厂的差不少吧;

除了Oracle,还用到了MySql,猜测其用途主要是一些backup的工作,或者存储一些非核心数据;

招收“hadoop工程师”,所以应该是用hadoop作了一些很耗时和复杂的查询,结合上一点,hadoop的底层存储也许替换成了MySql;

感慨一句,看了taobao的平台,谁还会说data warehouse华而不实呢。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值