Python爬虫入门教程 9-100 河北阳光理政投诉板块

最新推荐文章于 2022-11-03 02:31:39 发布

梦想橡皮擦

最新推荐文章于 2022-11-03 02:31:39 发布

阅读量2.1w

点赞数 4

CC 4.0 BY-SA版权

分类专栏：爬虫100例教程文章标签： python3爬虫

梦想橡皮擦-独家版权，禁止转载

本文链接：https://blog.youkuaiyun.com/hihell/article/details/83000008

爬虫100例教程专栏收录该内容

118 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了使用Python的lxml模块爬取河北阳光理政投诉板块的数据，包括如何处理动态页面的请求参数，解析HTML获取所需信息，并最终成功抓取到数据存储在mongodb中。

1.河北阳光理政投诉板块-写在前面

之前几篇文章都是在写图片相关的爬虫，今天写个留言板爬出，为另一套数据分析案例的教程做做准备，作为一个河北人，遵纪守法，有事投诉是必备的技能，那么咱看看我们大河北人都因为什么投诉过呢？

今天要爬取的网站地址 http://yglz.tousu.hebnews.cn/l-1001-5-，一遍爬取一遍嘀咕，别因为爬这个网站在去喝茶，再次声明，学习目的，切勿把人家网站爬瘫痪了。

2.河北阳光理政投诉板块-开始撸代码

今天再次尝试使用一个新的模块 lxml ，它可以配合xpath快速解析HTML文档，官网网站 https://lxml.de/index.html
利用pip安装lxml，如果安装失败，可以在搜索引擎多搜搜，内容很多，100%有解决方案。

pip install lxml

废话不多说，直接通过requests模块获取百度首页，然后用lxml进行解析

了解本专栏

8 条评论

煎水tuo'馍 2021.04.23
图片显示不出来了

业余的炸鸡爱好者 2020.11.19
为啥现在没了
- 梦想橡皮擦回复业余的炸鸡爱好者 2020.11.19
  http://yglz.tousu.hebnews.cn/shss-1.html

夜深人静推公式 2020.10.10
找了找，现在再爬的话，这个应该可以：http://yglz.tousu.hebnews.cn/shss-1.html，页面是一样的
- 梦想橡皮擦回复夜深人静推公式 2020.10.10
  好的，谢谢补充

夜深人静推公式 2020.10.10
额，看来我还是来晚了，姐姐，这个网址，又不能用了。。。

gnau9li 2019.07.03
找半天不知道你的奇怪的参数在哪

Py.ziMing 2019.05.16
作者你好，我跟着你的博客教程学了好几篇了。我觉得这一篇中有一个小小的瑕疵，就是："type":type 这一句代码。type是python保留的关键字，这样命名是不是缺乏严谨性。

暂7师师长常乃超 2018.11.15
挺厉害的。

评论 9

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦想橡皮擦 如有帮助，来瓶可乐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。