布隆过滤器

什么是布隆过滤器
本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。

相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。

实现原理
布隆过滤器数据结构
布隆过滤器是一个 bit 向量或者说 bit 数组,如下图:
在这里插入图片描述
如果我们要映射一个值到布隆过滤器中,我们需要使用多个不同的哈希函数生成多个哈希值,并对每个生成的哈希值指向的 bit 位置 1,例如针对值 “baidu” 和三个不同的哈希函数分别生成了哈希值 1、4、7,则上图转变为:
在这里插入图片描述
值得注意的是,4 这个 bit 位由于两个值的哈希函数都返回了这个 bit 位,因此它被覆盖了。现在我们如果想查询 “dianping” 这个值是否存在,哈希函数返回了 1、5、8三个值,结果我们发现 5 这个 bit 位上的值为 0,说明没有任何一个值映射到这个 bit 位上,因此我们可以很确定地说 “dianping” 这个值不存在。而当我们需要查询 “baidu” 这个值是否存在的话,那么哈希函数必然会返回 1、4、7,然后我们检查发现这三个 bit 位上的值均为 1,那么我们可以说 “baidu” 存在了么?答案是不可以,只能是 “baidu” 这个值可能存在。

这是为什么呢?答案跟简单,因为随着增加的值越来越多,被置为 1 的 bit 位也会越来越多,这样某个值 “taobao” 即使没有被存储过,但是万一哈希函数返回的三个 bit 位都被其他值置位了 1 ,那么程序还是会判断 “taobao” 这个值存在。

数据集介绍:淋巴细胞、中性粒细胞与鳞状细胞癌检测数据集 一、基础信息 数据集名称:淋巴细胞、中性粒细胞与鳞状细胞癌检测数据集 数据规模: - 训练集:5,205张医学图像 - 验证集:240张医学图像 - 测试集:220张医学图像 病理分类: - Lymphocytes(淋巴细胞):免疫系统核心细胞,参与病毒防御与肿瘤监控 - NE(中性粒细胞):急性炎症标志物,反映感染与组织损伤 - SCC(鳞状细胞癌):常见上皮组织恶性肿瘤,需早期精准识别 标注规范: - YOLO格式标注,支持目标检测模型训练 - 包含多边形坐标标注,适配病理切片分析需求 二、核心应用 数字病理诊断系统: 支持开发白细胞亚型自动分类系统与鳞癌检测算法,辅助显微镜图像分析,提升病理科工作效率。 血液病辅助诊断: 通过淋巴细胞/中性粒细胞比例分析,为白血病、淋巴瘤等血液疾病提供AI辅助判断依据。 癌症筛查研究: 包含鳞状细胞癌阳性样本,适用于皮肤癌、头颈癌等上皮源性肿瘤的早期筛查模型开发。 医学影像教学: 提供标注规范的病理图像数据,适用于医学院校的细胞形态学教学与AI医疗交叉学科实训。 三、核心优势 临床病理学深度适配: 涵盖血液系统关键细胞类型与高发癌症类别,标注经病理专家双重校验,确保医学准确性。 多场景检测能力: 同时支持血涂片细胞分类与组织切片癌变区域检测,满足复合型医疗AI产品开发需求。 数据分布专业化: 按医学研究标准划分训练集/验证集/测试集,包含典型病例与边缘案例,强化模型鲁棒性。 跨任务兼容性: YOLO标注格式可直接用于目标检测训练,同时支持转换为分类、实例分割等扩展任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值