目录结构

第一步:
com.webcrawler.util.Queue.java
第二步:
com.webcrawler.util.LinkQueue.java
第三步:
com.webcrawler.util.LinkFilter.java
第四步:
com.webcrawler.util.HtmlParserTool.java
第五步:
com.webcrawler.util.DownloadFile.java
第六步:
com.webcrawler.test.MainCrawler.java
That's all.
所有jar包在
网页爬虫实现
本文介绍了一个简单的网页爬虫实现过程,包括队列管理、链接过滤、页面解析及文件下载等功能。该爬虫从种子URL开始抓取页面,并通过解析获取新的链接继续爬取,直至达到设定的抓取数量上限。
4279





