本篇博客继续学习 BeautifulSoup
,目标站点选取“溧阳摄影圈”,这一地方论坛。
目标站点分析
本次要采集的目标站点分页规则如下:
http://www.jsly001.com/thread-htm-fid-45-page-{页码}.html
代码采用多线程 threading 模块+requests 模块+BeautifulSoup 模块编写。
采取规则依据列表页 → 详情页。
溧阳摄影圈图片采集代码
本案例属于实操案例,bs4 相关知识点已经在上一篇博客进行铺垫,顾先展示完整代码,然后基于注释与重点函数进行说明。
import random
import threading
import logging
from bs4