多协程爬虫

 

 

要实现异步的爬虫方式的话,需要用到多协程。

一.gevent库

同步的爬虫方式爬取这8个网站 :

 

import requests,time
#导入requests和time
start = time.time()
#记录程序开始时间

url_list = ['https://www.baidu.com/',
'https://www.sina.com.cn/',
'http://www.sohu.com/',
'https://www.qq.com/',
'https://www.163.com/',
'http://www.iqiyi.com/',
'https://www.tmall.com/',
'http://www.ifeng.com/']
#把8个网站封装成列表

for url in url_list:
#遍历url_list
    r = requests.get(url)
    #用requests.get()函数爬取网站
    print(url,r.status_code)
    #打印网址和抓取请求的状态码

end = time.time()
#记录程序结束时间
print(end-start)
#end-start是结束时间减去开始时间,就是最终所花时间。
#最后,把时间打印出来。

程序运行后,你会看到同步的爬虫方式,是依次爬取网站,并等待服务器响应(状态码为200表示正常响应)后,才爬取下一个网站。比如第一个先爬取了百度的网址,等服务器响应后,再去爬取新浪的网址,以此类推,直至全部爬取完毕。
异步方式爬取 :

 

from gevent import monkey
monkey.patch_all()
import gevent,time,requests

start = time.time()

url_list = ['https://www.baidu.com/',
'https://www.sina.com.cn/',
'http://www.sohu.com/',
'https://www.qq.com/',
'https://www.163.com/',
'http://www.iqiyi.com/',
'https://www.tmall.com/',
'http://www.ifeng.com/']

def crawler(url):
    r = requests.get(url)
    print(url,time.time()-start,r.status_code)

tasks_list = []

for url in url_list:
    task = gevent.spawn(crawler,url)
    tasks_list.append(task)
gevent.joinall(tasks_list)
end = time.time()
print(end-start)

通过每个请求运行的时间,我们能知道:爬虫用了异步的方式抓取了8个网站,因为每个请求完成的时间并不是按着顺序来的。比如在我测试运行这个代码的时候,最先爬取到的网站是搜狐,接着是凤凰,并不是百度和新浪。且每个请求完成时间之间的间隔都非常短,你可以看作这些请求几乎是“同时”发起的。通过对比同步和异步爬取最终所花的时间,用多协程异步的爬取方式,确实比同步的爬虫方式速度更快。

 

 

二.queue模块(创建多个爬虫)

当我们用多协程来爬虫,需要创建大量任务(假如我们要爬的不是8个网站,而是1000个网站,我们可以怎么做?)时,我们可以借助queue模块。
queue翻译成中文是队列的意思。我们可以用queue模块来存储任务,让任务都变成一条整齐的队列,就像银行窗口的排号做法。因为queue其实是一种有序的数据结构,可以用来存取数据。

 

 

 

from gevent import monkey
monkey.patch_all()
import gevent,time,requests
from gevent.queue import Queue

start = time.time()

url_list = ['https://www.baidu.com/',
'https://www.sina.com.cn/',
'http://www.sohu.com/',
'https://www.qq.com/',
'https://www.163.com/',
'http://www.iqiyi.com/',
'https://www.tmall.com/',
'http://www.ifeng.com/']

work = Queue()
for url in url_list:
    work.put_nowait(url)

def crawler():
    while not work.empty():
        url = work.get_nowait()
        r = requests.get(url)
        print(url,work.qsize(),r.status_code)

tasks_list  = [ ]

for x in range(2):
    task = gevent.spawn(crawler)
    tasks_list.append(task)
gevent.joinall(tasks_list)

end = time.time()
print(end-start)

 

 

 

 

以下是协程爬虫的具体步骤和示例代码: 步骤: 1. 初始化爬虫参数,包括目标网站URL、请求头、代理等信息。 2. 创建一个事件循环对象。 3. 定义一个异步函数,用于发送HTTP请求和解析响应。 4. 在异步函数中,使用aiohttp库发送异步HTTP请求,并获取响应。 5. 在异步函数中,解析响应并提取所需的信息。 6. 在异步函数中,将提取到的信息存储到本地或数据库中。 7. 在异步函数中,如果存在新的URL,将其加入任务队列。 8. 创建一个任务列表,用于存放所有的异步任务。 9. 将每个异步任务添加到任务列表中。 10. 在事件循环中运行所有的异步任务。 11. 当所有任务完成后,关闭事件循环。 示例代码: ```python import asyncio import aiohttp # 初始化爬虫参数 target_url = 'https://example.com' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'} # 其他参数... # 异步函数:发送HTTP请求和解析响应 async def fetch(session, url): async with session.get(url, headers=headers) as response: return await response.text() # 异步函数:解析响应和提取信息 async def parse(html): # 解析响应并提取信息 # ... # 存储信息到本地或数据库 # ... # 如果有新的URL,加入任务队列 # ... # 主函数 async def main(): async with aiohttp.ClientSession() as session: # 创建任务列表 tasks = [] # 添加异步任务到任务列表 tasks.append(asyncio.create_task(fetch(session, target_url))) # 执行并等待所有任务完成 responses = await asyncio.gather(*tasks) # 处理每个响应 for response in responses: await parse(response) # 创建事件循环并运行主函数 loop = asyncio.get_event_loop() loop.run_until_complete(main()) loop.close() ``` 以上是一个简单的协程爬虫的示例,你可以根据实际需求进行修改和扩展。记得在运行代码之前安装相应的依赖库,如aiohttp。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值