网页数据抓取:并发下载与动态内容处理
1. 并发下载
在爬虫的 __main__ 部分,可以轻松向脚本传递参数,如 max_threads 和 url_pattern 。之前的示例中,默认使用 max_threads=5 和 url_pattern='$^' 。使用 5 个线程时,下载速度几乎快了 4 倍,但实际结果会因 ISP 或运行脚本的服务器而异。
为进一步提高性能,可将多线程爬虫扩展为支持多进程。当前的爬取队列存储在本地内存中,其他进程无法参与同一爬取任务。为解决此问题,可将爬取队列转移到 Redis 中,这样即使不同服务器上的爬虫也能协作完成同一爬取任务。
以下是新的基于 Redis 的队列实现:
# Based loosely on the Redis Cookbook FIFO Queue:
# http://www.rediscookbook.org/implement_a_fifo_queue.html
from redis import StrictRedis
class RedisQueue:
""" RedisQueue helps store urls to crawl to Redis
Initialization components:
client: a Redis client connected to the key-value database for
超级会员免费看
订阅专栏 解锁全文
12万+

被折叠的 条评论
为什么被折叠?



