06. 分布式爬虫、布隆过滤器

一、布隆过滤器

1、bloomfilter:是一个通过多哈希函数映射到一张表的数据结构,能够快速的判断一个元素在一个集合内是否存在,具有很好的空间和时间效率
2 数组:连续存储的内存空间:取值,改值效率高;;;插入值,删除值效率低
3 链表:不连续的内存空间,可变长:取值,改之效率低;;;插入删除效率高
3 你现在看到的所有数据结构,本质就是数字,字符串,布尔,数组,链表(列表,元组,字典,集合)


4 计算机最小单位:比特位   8个比特位是1byte
  utf-8: abcdefg-----7bytes----56个比特位
  
  
5 python中使用布隆过滤器(不同语言中都会有)
pip3 install pybloom_live
# from pybloom_live import ScalableBloomFilter
#
#
# bloom = ScalableBloomFilter(initial_capacity=100, error_rate=0.00001, mode=ScalableBloomFilter.LARGE_SET_GROWTH)
#
# url = "www.cnblogs.com"
#
# url2 = "www.liuqingzheng.top"
#
# bloom.add(url)
#
# print(url in bloom)
#
# print(url2 in bloom)


from pybloom_live import BloomFilter
# 10来个
bf = BloomFilter(capacity=1000)
url='www.baidu.com'
bf.add(url
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值