Twisted模块

本文介绍使用Python的Twisted库实现异步网页抓取的方法。通过创建递归任务并利用DeferredList监控所有请求的状态,确保所有URL都被正确抓取且在所有任务完成后停止事件循环。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from twisted.web.client import getPage, defer
from twisted.internet import reactor

def callback(contents):
    print(contents)

url_list = ['http://www.bing.com', 'http://www.baidu.com', ]

for url in url_list:
    deferred = getPage(bytes(url, encoding='utf8'))
    deferred.addCallback(callback)

reactor.run()

事件执行只有开始没有结束,因此需要规定某个目标任务的完成来终止事件

from twisted.web.client import getPage, defer
from twisted.internet import reactor

def callback(contents):
    print(contents)
url_list = ['http://www.bing.com', 'http://www.baidu.com', ]

_active = []

for url in url_list:
    d = getPage(bytes(url, encoding='utf8'))
    d.addCallback(callback)
    _active.append(d)

def all_done(arg):
    reactor.stop()

xx = defer.DeferredList(_active)
xx.addBoth(all_done)

reactor.run()

将defer对象加入一个列表_active中以此来用defer方法DeferredList来监听该列表中的任务是否完成回调,在执行回调之后addBoth(表示无论错误还是成功都会执行该方法设置的函数)

 

转载于:https://www.cnblogs.com/c491873412/p/7834338.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值