微软对 Yahoo! 的收购持久战可能让很多人都新闻疲劳了。但今天看到的这个关于 Yahoo! 的技术新闻还是值得看一下的:Size matters: Yahoo claims 2-petabyte database is world's biggest, busiest 。Yahoo! 的 VP Waqar Hasan 在文中披露 Yahoo!的数据仓库当前容量为 2PB。用于分析每月5亿的用户访问行为,每天处理 240 亿次的事件,号称世界上单个最大、最忙的数据库。
尽管有的数据仓库容量要比雅虎的大。但那些 DB 或是存储非关系性数据,或是存储的压缩后的原始数据,不能进行即时分析,雅虎之前的也有数百 T 这样的数据。眼下 Yahoo!数据仓库存储的是结构化、可分析的数据。预计下一年可能膨胀到数十 PB 。eBay 号称数据总量有 6PB , 不过根据一些消息来看,单个最大的 DB 只有 1.4 PB。
Yahoo! 在 2005 年买了一家叫 Mahat Technologies 的初创公司(就是 Waqar Hasan 操刀的),这家公司以 PostgreSQL 数据库为基础,开发了一个新型 DB,其特点是 基于列 的而不是 基于行 的模式。不难理解,这样数据写入的速度会慢下来,但是读取的速度会快很多【去年的侠客行上,雷鸣在演讲的时候讲过他在百度的时候做的一个优化的例子。和这个思想非常相似,所以当时我说对我"有启发"】。Yahoo! 买了之后,对该产品进行了持续性的改进(内部代号: ELCARO ?) ,比如压缩,并行处理能力加强、优化查询等等特性的添加改进。而针对使用者的接口仍是 PostgreSQL 。这应该也算 PostgreSQL 在顶级企业又一个成功案例。
这么大的数据库并没有采用传统的 SMP 架构构建,而是采用普通 PC 作集群(用了不到 1000 台) 。很明显这是 Share Nothing 而不是 Share Storage 的 DB 集群。通过上述独特的设计方式,能够对此海量数据进行有效的分析,这是个不小的技术革新,也是与 Google Map Reduce 完全不同的计算模式。
让人感慨的是 关于世界上的超大数据库 一文中罗列的数据,现在看起来已经并不惊人了。以前总说信息爆炸,这个时代刚刚来临。
--EOF--
Generator | Trampoline
<script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascr<script src="http://pagead2.googlesyndication.com/cpa/ads?client=ca-pub-2198040673582211&cpa_choice=caaqhat2_geaci52gvkp95-sklgsuiebmaa&oe=utf-8&dt=1211817236711&lmt=1211816956&format=ref_text&output=textlink&correlator=1211817236710&url=http%3a%2f%2fwww.dbanotes.net%2fdatabase%2fyahoo_dw.html&region=_google_cpa_region_&ref=http%3a%2f%2fwww.dbanotes.net%2f&frm=0&cc=100&ga_vid=116372297744719870.1211817237&ga_sid=1211817237&ga_hid=941511286&flash=9.0.64&u_h=800&u_w=1280&u_ah=772&u_aw=1280&u_cd=24&u_tz=480&u_his=1&u_nplug=3&u_nmime=4" language="javascript1.1" type="text/javascript"></script>type="text/javascript"> Get Firefox with Google Toolbar for better browsing
Generate revenue from your website. Google AdSense.
本文相关评论|Comments(2)
“以前总说信息爆炸,这个时代刚刚来临。”这句话读着很有沧桑的味道
Yahoo! 数据仓库揭秘
Yahoo!的数据仓库目前容量达2PB,用于分析每月5亿用户的访问行为,号称全球最大的单一数据库。采用基于列而非行的存储模式,使用PostgreSQL作为接口,通过普通PC集群实现高效分析。
del.icio.us
920







yahoo现有的数据仓库基本上还是10年以前开发的,不过现在正在尝试使用PGCLUSTER来替代,yahoo也尝试过使用Hadoop来进行DW的升级,但是似乎hadoop并没有达到预期效果。