网站架构学习笔记--Tailrank架构

最新推荐文章于 2019-08-01 13:55:49 发布

最新推荐文章于 2019-08-01 13:55:49 发布 · 137 阅读

·

0

·

文章标签：

#MySQL #Google #Debian #Mapreduce #Linux

网站架构专栏收录该内容

1 篇文章

订阅专栏

Tailrank通过自研Task/Queue工具实现高效数据处理与分析。该系统每小时索引24M网页，月处理52TB内容。采用MySQL的InnoDB引擎，并开源了负载均衡连接池等工具。

来源： Todd Hoff的文章http://www.highscalability.com/tailrank-architecture-learn-how-track-memes-across-entire-blogosphere

Tailrank网站提供blog文章热点新闻跟踪服务，同时从8个月前开始许可其爬虫程序 Spinn3r。
Tailrank要解决的是如何高效处理海量数据，及如何分析并精确索引其抓取的内容。

其要技术难点在于建立伸缩性好并高容错的分布式系统，目前实现了一个类似于Google的MapReduce的工具Task/Queue，
它是一个集中的队列服务器，用于分发任务给来请求的机器人。

技术平台

MySQL：Federated方式分布数据，待扩展成完全的sharded方式
Java
Linux(Debian)
Apache 2.0
Squid：服务95%的页面
存储：两个SATA驱动器，配置成RAID 0.
ServerBeach托管

系统规模

15台机器；
每小时索引24M的weblog和feed；
速度处理内容：以160~200M bps；
每月处理的内容：52TB；
当前数据库规模：500G;

MySQL使用情况

使用InnoDB引擎；
MySQL基于单核系统设计，从5.1开始才解决了多核系统下锁的问题。

已开源的代码

http://code.tailrank.com/lbpool：支持负载均衡的JDBC数据库连接缓冲池；
http://code.tailrank.com/feedparser：较好支持所有RSS版本的Java RSS/Atom解析器；
http://code.google.com/p/benchmark4j/：Java(及UNIX)下的性能分析工具；
http://code.google.com/p/spinn3r-client/：访问Spinn3r web service的客户端接口；
http://code.google.com/p/mysqlslavesync/：用于快速并某MySQL进行复制；
http://code.google.com/p/log5j/：基于log4j，实现printf格式的日志内容处理功能。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。