1.基本思路
此下载框架由五部分组成,即:URL管理器、网页下载器、网页解析器、调度器和保存器。
其时序图如图所示。
给定一个要访问的url,获取这个html及内容,遍历html中的某一类链接,如a标签的href属性,从这些链接中继续访问相应的html页面,然后获取这些html的固定标签的内容,如果需要多个标签内容,可以通过字符串拼接,最后通过正则表达式删除所有的标签,最后将其中的内容写入.txt文件。
所有要爬取的页面,它们的标签格式都是相同的,给定的url所获得的html,它包含的标签链接是可以筛选的,筛选后的标签链接会被继续请求其html文档。通过一个调度器是一个循环体,循环处理这些url、请求以及html、网页解析。