1.河北阳光理政投诉板块-写在前面
之前几篇文章都是在写图片相关的爬虫,今天写个留言板爬出,为另一套数据分析案例的教程做做准备,作为一个河北人,遵纪守法,有事投诉是必备的技能,那么咱看看我们大河北人都因为什么投诉过呢?
今天要爬取的网站地址 http://yglz.tousu.hebnews.cn/l-1001-5-,一遍爬取一遍嘀咕,别因为爬这个网站在去喝茶,再次声明,学习目的,切勿把人家网站爬瘫痪了。
2.河北阳光理政投诉板块-开始撸代码
今天再次尝试使用一个新的模块 lxml ,它可以配合xpath快速解析HTML文档,官网网站 https://lxml.de/index.html
利用pip安装lxml,如果安装失败,可以在搜索引擎多搜搜,内容很多,100%有解决方案。
pip install lxml
废话不多说,直接通过requests模块获取百度首页,然后用lxml进行解析
本文介绍了使用Python的lxml模块爬取河北阳光理政投诉板块的数据,包括如何处理动态页面的请求参数,解析HTML获取所需信息,并最终成功抓取到数据存储在mongodb中。
订阅专栏 解锁全文
2万+





