Tailrank 网站架构

Tailrank是一家专注于实时热点发现的Web2.0创业公司,每小时处理2400万个Blog和Feed更新,每月处理52TB原始数据。采用15台装备Opteron CPU的服务器,运行Debian Linux,并使用Apache和Squid进行Web服务。数据库方面采用联邦形式的MySQL,使用InnoDB存储引擎。此外,还利用多种开源工具保障系统稳定性和性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原贴:http://www.dbanotes.net/review/tailrank_arch.html

Tailrank 网站架构

tailrank_logo.jpg

每天数以千万计的 Blog 内容中,实时的热点是什么? Tailrank 这个 Web 2.0 Startup 致力于回答这个问题。

专门爆料网站架构的 Todd HoffKevin Burton 进行了采访。于是我们能了解一下 Tailrank 架构的一些信息。每小时索引 2400 万的 Blog 与 Feed,内容处理能力为 160-200Mbps,IO 写入大约在10-15MBps。每个月要处理 52T 之多的原始数据。Tailrank 所用的爬虫现在已经成为一个独立产品:spinn3r

服务器硬件

目前大约 15 台服务器,CPU 是 64 位的 Opteron。每台主机上挂两个 SATA 盘,做 RAID 0。据我所知,国内很多 Web 2.0 公司也用的是类似的方式,SATA 盘容量达,低廉价格,堪称不二之选。操作系统用的是 Debian Linux 。Web 服务器用 Apache 2.0,Squid 做反向代理服务器。

数据库

Tailrank 用 MySQL 数据库,联邦数据库形式。存储引擎用 InnoDB, 数据量 500GB。Kevin Burton 也指出了 MySQL 5 在修了一些 多核模式下互斥锁的问题(This Bug?)。到数据库的JDBC 驱动连接池用 lbpool 做负载均衡。MySQL Slave 或者 Master的复制用 MySQLSlaveSync 来轻松完成。不过即使这样,还要花费 20% 的时间来折腾 DB。

其他开放的软件

任何一套系统都离不开合适的 Profiling 工具,Tailrank 也不利外,针对 Java 程序的 Benchmark 用 Benchmark4j。Log 工具用 Log5j(不是 Log4j)。Tailrank 所用的大部分工具都是开放的。

Tailrank 的一个比较大的竞争对手是 Techmeme,虽然二者暂时看面向内容的侧重点有所不同。其实,最大的对手还是自己,当需要挖掘的信息量越来越大,如果精准并及时的呈现给用户内容的成本会越来越高。从现在来看,Tailrank 离预期目标还差的很远。期待罗马早日建成。

--EOF--

| | Comments (2) | | Edit

Generator
<script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascr<script language="javascript1.1" src="http://pagead2.googlesyndication.com/cpa/ads?client=ca-pub-2198040673582211&amp;cpa_choice=caaqhat2_geaci52gvkp95-sklgsuiebmaa&amp;oe=utf-8&amp;dt=1195645051406&amp;lmt=1195621016&amp;format=ref_text&amp;output=textlink&amp;correlator=1195645051390&amp;url=http%3a%2f%2fwww.dbanotes.net%2freview%2ftailrank_arch.html&amp;region=_google_cpa_region_&amp;ref=http%3a%2f%2fwww.dbanotes.net%2f&amp;cc=100&amp;ga_vid=1564794783.1195645051&amp;ga_sid=1195645051&amp;ga_hid=1170564131&amp;flash=9&amp;u_h=1024&amp;u_w=1280&amp;u_ah=874&amp;u_aw=1280&amp;u_cd=32&amp;u_tz=480&amp;u_his=1&amp;u_java=true" type="text/javascript"></script>type="text/javascript"> Get Firefox with Google Toolbar for better browsing
Generate revenue from your website. Google AdSense.

本文相关评论|Comments(2)

木匠 的评论:

什么是 联邦数据库形式? 好比 MS-SQL Sever 的 Cluster 数据库? 或者是高速的 分布式 数据库?

总之, 是Share nothing ...?

ywdblog 的评论:

大牛能不能写点mysql的文章

添加评论

直接 匿名评论 或者 登录 评论这篇文章(OpenID、TypeKey...) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值