
爬虫
文章平均质量分 73
麦麦麦造
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
提高爬虫开发效率的几个小工具
前言 一般开发爬虫的时候,最心烦的不是它的反爬有多复杂,而是它的参数贼多,要一个个的复制进去。 所以自己写了一个小工具,把抓包抓到的 header、data、cookie 这些参数转换成 python 代码。 大大的提高开发效率,其实代码之前已经开源了,不过用起来不太方便,于是最近就把它弄到了线上,用起来方便多了。 涉及到的工具或技术 Python 3.7 Fiddler v5.0 Charle...原创 2020-04-27 19:23:16 · 396 阅读 · 0 评论 -
scrapy使用随机User-Agent
scrapy使用随机User-Agent 众所周知,User-Agent值是用来帮助服务器识别用户使用的操作系统、浏览器、浏览器版本等等信息的,因此也常被用来检测爬虫。 许多网站会ban掉来自爬虫的请求,来达到反爬的目的。 正常浏览器的User-Agent值为: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 F...原创 2018-09-18 01:57:43 · 575 阅读 · 0 评论 -
python爬虫中一个str类型的unicode字符串转成中文的问题
本文主要介绍部分爬虫在遇到%u5317%u4eac%u70e4%u9e2d这种类似unicode编码的str类型数据时,无法直接使用decode('unicode-escape')方法来转成中文的时候,一个转码的解决方案,以及这个方案的思路! 今天在爬一个网站的时候,遇到了一个网站,它的一些数据是通过ajax加载进来的一段json,它的value部分的内容是像下面这样子的: %20%20%20...原创 2018-09-29 11:36:58 · 4199 阅读 · 3 评论 -
三个小工具,大幅提高爬虫开发速度
引言 我们在进行爬虫开发的时候,fildder是一个必不可少的神器。尤其是现在大型网站的反爬越来越难处理,经常会花费我们大量的时间来找到哪些参数是必须的。因此如果能够快速的将fildder抓到的包里面的参数转换成python可用的格式,那么无疑可以极大的提高我们的开发效率。 因此我写了小工具,主要目的是为了快速的将fildder里抓到的header,data,cookie转换成requests,s...原创 2019-01-07 22:33:08 · 343 阅读 · 0 评论