python redis实现bloomfilter

最新推荐文章于 2024-09-19 14:25:57 发布

原创最新推荐文章于 2024-09-19 14:25:57 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #redis

python 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一种用于海量数据去重的技术——布隆过滤器，并提供了具体的Python实现示例。通过使用哈希函数与位数组，布隆过滤器能够高效地判断元素是否存在于集合中，特别适用于数据量极大时的快速查询场景。

原理

用于海量数据去重，对数据经多次hash，放入bitmap，由于采用hash算法，可能数据可能重复，所以使用前务必按照公式计算错误率

实现

# coding:utf-8
import redis
import mmh3

REDIS_HOST = "192.168.159.128"
TEN_M = 50 * 1024 * 8
BF_KEY = "bf_key"
redis_client = redis.Redis(host=REDIS_HOST, port=6379, db=0)

seeds = [18, 6, 9, 7, 2, 17, 23, 23]


def init_bloom():
    for i in range(0, TEN_M):
        redis_client.setbit(BF_KEY, i, 0)


def add_bloom(str):
    for seed in seeds:
        sign = mmh3.hash(str, seed=seed)
        if sign < 0:
            offset = (sign & 0xffffffff) % TEN_M
            redis_client.setbit(BF_KEY, offset=offset, value=1)
        else:
            offset = sign % TEN_M
            redis_client.setbit(BF_KEY, offset=offset, value=1)


def in_bloom(str):
    for seed in seeds:
        sign = mmh3.hash(str, seed=seed)
        if sign < 0:
            offset = (sign & 0xffffffff) % TEN_M
            if redis_client.getbit(BF_KEY, offset) != 1:
                return False
        else:
            offset = sign % TEN_M
            if redis_client.getbit(BF_KEY, offset) != 1:
                return False
    return True


if __name__ == '__main__':
        print in_bloom("hehe2222222222122222222ffffffffffffffffffffddddddd22222221")