本篇博客为《爬虫 120 例》第 31 例,坚持打卡学习走起,评论区留言,100% 回复。
目标站点分析
本次用于学习目的的站点为:http://landchina.mnr.gov.cn/land/crgg/gyyd/,域名中携带了 gov
,所以咱就不能上多线程了,而且每次采集都要间隔几秒钟,控制一下节奏,并且数据下载到本地,秒删。采集案例随时可能消失,如果采集不到了,就采集不到吧。
对目标站点的分析如下:
列表页地址分页规则
http://landchina.mnr.gov.cn/land/crgg/gyyd/index.htm
http://landchina.mnr.gov.cn/land/crgg/gyyd/index_1.htm
http://landchina.mnr.gov.cn/land/crgg/gyyd/index_2.htm
神奇的操作出现了,第一页没有后缀,然后第二页的后缀是从 index_1.html
开始。