用scala 写了个简单的spider, 它的结构如下:
. producer: 负责向queue塞入url
. consumer: 周期性扫描queue,并取出url
. handler : 队列操作,及根据url获取网页内容的处理类
producer , consumer 作为独立的线程通过 scala actor 对queue执行并发操作
项目采用sbt构建。因时间仓促,故功能简单,希望以后有时间慢慢补充。
项目地址: https://github.com/yfwangpeng/scala-spider
作者微博: http://weibo.com/58wp58 介平

本文介绍了一个使用Scala语言实现的简单爬虫项目。该项目包括producer、consumer和handler三个主要组件,利用Scala Actor进行并发操作。文章分享了项目的整体结构与功能,并提供了GitHub上的项目链接。
1911

被折叠的 条评论
为什么被折叠?



