淘宝的数据仓库

淘宝宣布开放数据,提供了数据分析平台,包括数据之美、数据魔方和量子统计。数据魔方为企业提供行业信息,量子统计服务于店铺经营者。推测后台基于UNIX/Linux,使用Java,数据仓库采用Oracle,备份和非核心数据可能用MySQL,且应用Hadoop进行复杂查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在JavaEye上看到了篇文章“淘宝网正式宣布向全球开放淘宝原始数据 ”。

于是到相关的页面上浏览了一下 http://data.taobao.com/

 

以下是几点感受:

感觉Taobao现在真是做得很不错。不光技术上很强大,在商业上也有很独到的眼光,两者相辅相成,有前途。以前国内也有一些互联网公司将自己的数据公开,但大部分的出发点都是从开源的角度考虑,并且数据多用于学术研究(以前做NLP的时候用过一些)。而淘宝的开发数据更多的是站在商业的角度上。最早做平台,平台做大了就开始卖数据了。

 

虽然说是卖数据,但其实并不是最原始的数据(raw data),而是提供了一个数据分析的平台,用户可以拿到一些预先生成的报表。似乎也没有开放的API可以调用。我依稀记得如facebook之类的网站是可以通过API直接获取数据的,不知道taobao是否也会这样。

 

三个模块:数据之美,数据魔方和量子统计。数据之美不过是一些统计信息的visualization,没什么可讲。数据魔方是对行业信息的统计和分析,其实是为企业级用户服务的。厂商可以根据这些数据的反馈来改进自己的产品。量子统计则是对单个店铺的全方位分析,服务的对象是taobao上的店铺经营者,通过分析可以知道什么样的产品更好卖...等等。

 

看到datacube(数据魔方)就猜测后台应该是一个大的data warehouse。于是就浏览了一下taobao的招聘信息。果然data warehouse相关的职位占到了3-4个。基于这些信息对它的后台肆意猜测一下:

      UNIX/linux操作系统;

    &nb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值