爬虫 100 例专栏复盘系列第 3 篇文章
案例 9:河北阳光理政投诉板块数据采集
很遗憾,该网址不可访问了,本案例增加的新模块是 lxml,也就是基于该模块的学习。
既然不能访问了,那我们切换到实话实说频道,http://yglz.tousu.hebnews.cn/shss-1.html。
在原案例中,最终获取到的数据存储到了 mongodb 中,复盘案例以抓取到数据为准,存储部分参考原案例即可。
import requests
import random
from lxml import etree # 从lxml中导入etree
ua = ['Mozilla/5.0 (Windows NT

订阅专栏 解锁全文
2万+





