转载：使用redis+flask维护动态代理池

最新推荐文章于 2025-09-08 09:16:44 发布

原创最新推荐文章于 2025-09-08 09:16:44 发布 · 248 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍如何使用Redis的Set数据结构替代List，解决动态代理池中代理IP重复问题。Set结构虽能避免重复，但随机弹出代理可能导致获取到的代理并非最新有效。文章对比了Set与List结构的优缺点。

转载：使用redis+flask维护动态代理池

githu源码地址：
https://github.com/Germey/ProxyPool
更好的代理池维护:
https://github.com/Python3WebSpider/ProxyPool

下面文章的源地址：https://blog.youkuaiyun.com/polyhedronx/article/details/81485458

针对代理池中的代理IP可能会重复的问题，提出了一种解决方法，实测可行。

代理IP之所以会重复，和Redis数据库使用的数据结构有很大关系，原程序使用的是列表（list）结构，数据以列表形式存入数据库后是有序但允许重复的，当有新的数据存入时，并不会对数据的重复性进行检查和处理。但Redis不仅有列表结构，常见的Redis数据结构有String、Hash、List、Set（集合）和Sorted Set（有序集合），使用Set和Sorted Set结构就不会出现重复元素。

Set是无序集合，元素无序排列，当有重复元素存入时，数据库是不会发生变化的；Sorted Set是有序集合，有序集合是可排序的，但是它和列表使用索引下标进行排序依据不同的是，它给每个元素设置一个分数(score)作为排序的依据，当存入一个元素时，同时需要存入该元素的分数。

Sorted Set使用起来较复杂，主要是分数分配问题比较难搞，所以这里使用Set代替原程序中的List作为数据库的数据结构，将以下内容代替原来的“db.py”文件中的内容即可：

# db.py
 
import redis
from proxypool.error import PoolEmptyError
from proxypool.setting import HOST, PORT, PASSWORD
 
 
class RedisClient(object):
    def __init__(self, host=HOST, port=PORT):
        if PASSWORD:
            self._db = redis.Redis(host=host, port=port, password=PASSWORD)
        else:
            self._db = redis.Redis(host=host, port=port)
 
    def get(self, count=1):
        """
        get proxies from redis
        """
        proxies = []
        for i in range(count):
            proxies.append(self._db.spop("proxies"))
        return proxies
 
    def put(self, proxy):
        """
        add proxy to right top
        """
        self._db.sadd("proxies", proxy)
 
    def pop(self):
        """
        get proxy from right.
        """
        try:
            return self._db.spop("proxies").decode('utf-8')
        except:
            raise PoolEmptyError
 
    @property
    def queue_len(self):
        """
        get length from queue.
        """
        return self._db.scard("proxies")
 
    def flush(self):
        """
        flush db
        """
        self._db.flushall()
 
 
if __name__ == '__main__':
    conn = RedisClient()
    print(conn.pop())
将数据结构改为Set以后，便不会出现代理池中代理IP重复的问题，但这样做也是有弊端的，因为Set是无序的，所以更新代理池的过程中每次弹出的代理IP也是随机的，这样代理池中的某些代理可能永远也不会被更新，而我们获取代理时采用pop方法得到的也是代理池中随机弹出的代理，该代理有可能是很久没有被更新的已经失效的代理。

总结一下就是使用Set结构可以保证代理池中的代理不会重复，但不能保证调用代理池获取代理时得到的代理是最新的和可用的，而List结构可以保证当前获取的代理是最新的，但代理池中的代理可能会有很大的重复。总之，两种方法都是有利有弊的，当然也可以尝试用有序集合（Sorted Set）构建一种完美的方法了。