queue队列(存放URL):先进先出
简易网络爬虫所用到的类:
queue.java--存放未抓取的URL信息
LinkDB.java--存放已抓取和未抓取的URL信息
FileDownloader.java--网页下载器
ExtractLink.java--抽取网页当中所有URL
LinkFilter.java--实现URL过滤操作
Crawler.java--网络爬虫入口类
简易网络爬虫所用到的类:
queue.java--存放未抓取的URL信息
LinkDB.java--存放已抓取和未抓取的URL信息
FileDownloader.java--网页下载器
ExtractLink.java--抽取网页当中所有URL
LinkFilter.java--实现URL过滤操作
Crawler.java--网络爬虫入口类