
网络爬虫
文章平均质量分 64
amcomputer
内修数据结构机器学习,外练web开发网络安全。
展开
-
python异步爬虫实现与总结
一 背景默认情况下,用get请求时,会出现阻塞,需要很多时间来等待,对于有很多请求url时,速度就很慢。因为需要一个url请求的完成,才能让下一个url继续访问。一种很自然的想法就是用异步机制来提高爬虫速度。通过构建线程池或者进程池完成异步爬虫,即使用多线程或者多进程来处理多个请求(在别的进程或者线程阻塞时)。import time #串形def getPage(url): print("开始爬取网站",url) time.sleep(2)#阻塞 print("爬取完原创 2021-05-10 21:05:55 · 1084 阅读 · 16 评论 -
爬虫常用请求头和响应头信息
常用请求头信息:-User-Agent:请求载体的身份标识,即浏览器信息(如版本,apach信息,OS版本)-Connection: 请求完毕后,是断开连接还是保持连接- Referer: 表示请求来源,目地是防止盗链或者恶意请求。比如说我准备访问www.baidu.com. 而我是从360网站里面访问的百度主页,说明来源是360,此时Referer=http://www.360.com-cookie:查看用户身份,保持会话常用请求头信息:-Content-Type:服务器响应回..原创 2021-05-09 23:16:27 · 1848 阅读 · 2 评论 -
Scrapy爬虫框架总结
python的Scrapy爬虫框架有5个大部件,细分的话有7个小部件。框架隔一段时间不用就会忘记很多知识点,学了好几遍了,老是忘记一些常用的数据扭转逻辑,因此写下该博文,以期帮助后续爬虫学习和开发。同时,时间长了容易忘记这些部件,因此尝试对scrapy爬虫框架进行总结。一 理解数据流图理解数据流图后,可以对Scrapy框架进行总体上的把稳和理解,方便后续对组件的理解。二 理解部件功能按照数据流图扭转步骤介绍:Spiders:功能:1发送请求url,2解析response里面.原创 2021-05-09 10:38:49 · 442 阅读 · 3 评论