位图和布隆过滤器以及哈希切分

本文介绍了位图和布隆过滤器的基本概念及其应用场景,包括位图如何用于快速判断整数的存在性,以及布隆过滤器如何通过多个哈希函数减少误报率。
今天分享一下,有关于位图和布隆过滤器以及哈希切分的相关问题。
位图简单来说就是以一个bit位来表示一个整形数字存在或者不存在,它适用于在大数据中简单查找确定一个整形数字是否存在?
其实位图与哈希表的直接定值法的原理是一致的,哈希表的定值是一个具体的类型,而位图定值到一个bit上,用该bit位上的0或1来表示某个整形数字存在或者不存在。like that.


位图代码的简单实现如下:
Bitset.h
#pragma once
#include<vector>
 
class Bitset
{
public:
Bitset(int size)
{
int index = (size>>5)+1;
_a.resize(index);
}
 
~Bitset()
{
}
 
void Set(const int num)//置1
{
size_t index = num>>5;//下标
if(index >= _a.size())
{
return ;
}
 
int pos = num % 32;
_a[index] |= 1<<pos;
}
 
void Reset(const int num)//置0//删除
{
size_t  index = num>>5;//下标
if(index >= _a.size())
{
return ;
}
 
int pos = num % 32;
_a[index] &= ~(1<<pos);
}
 
bool Test(const int num)
{
size_t  index = num>>5;//下标
if(index >= _a.size())
{
return false;
}
 
int pos = num % 32;
if((_a[index] &= 1<<pos) == 0)
return false;
 
return true;
}
 
//bool operator[](const int num)
//{
// return Test(num);
//}
protected:
vector<int> _a;
};
 
void TestBitset()//测试位图
{
Bitset s(1000);
 
s.Set(22);
s.Set(112);
s.Set(221);
s.Set(999);
 
cout<<"s.Test(22)"<<s.Test(22)<<endl;
cout<<"s.Test(12)"<<s.Test(12)<<endl;
cout<<"s.Test(122)"<<s.Test(122)<<endl;
cout<<"s.Test(112)"<<s.Test(112)<<endl;
cout<<"s.Test(221)"<<s.Test(221)<<endl;
cout<<"s.Test(212)"<<s.Test(212)<<endl;
cout<<"s.Test(2)"<<s.Test(2)<<endl;
cout<<"s.Test(999)"<<s.Test(999)<<endl;
 
s.Reset(22);
cout<<"s.Reset(22)->s.Test(22)"<<s.Test(22)<<endl;
 
 
}
run.cpp
#include<iostream>
using namespace std;
 
#include"Bitset.h"
 
int main()
{
cout<<"***测试位图***"<<endl;
TestBitset();//测试位图
 
system("pause");
return 0;
}

位图适用于判断整形数字存在于否,而布隆过滤器普遍来说可以判断任何类型的实例化对象是否存在。布隆过滤器可以准确判断对象不存在,但是它的缺点是判断对象存在时可能存在误判。
布隆过滤器的底层依旧是一个位图,布隆过滤器首先利用(字符串)哈希转整形的方法把任意类型转化为整形,在此过程中可能导致转化的整形是相同的,于是位图在直接定值时,可能把几个不同对象的值映射到相同位置,即在确定某个并不存在的对象时,找到映射位置已存在的(某一个存在的其他经过哈希转换映射到这个位置),从而导致误判。为了降低映射冲突的误判率,我们把一个对象用不同的哈希转换映射几个位置,查找时,只有所有转化映射的位置都存在,才能判断其存在。但是纵使如此也无法完全避免映射冲突。即存在误判的情况仍然会发生。
图解如下:


布隆过滤器代码如下:
Bloomfilter.h
#pragma once
#include"Bitset.h"
 
//布隆过滤器//
struct HashString1
{
size_t BKDRHash(const char *str)  
{  
register size_t hash = 0;  
while (size_t ch = (size_t)*str++)  
{         
hash = hash * 131 + ch;   // 也可以乘以31、131、1313、13131、131313..          
}  
return hash;  
}
 
size_t operator()(const string& key)
{
return BKDRHash(key.c_str());
}
};
 
struct HashString2
{
size_t SDBMHash(const char *str)  
{  
register size_t hash = 0;  
while (size_t ch = (size_t)*str++)  
{  
hash = 65599 * hash + ch;         
}  
return hash;  
}  
 
size_t operator()(const string& key)
{
return SDBMHash(key.c_str());
}
};
 
struct HashString3
{
size_t RSHash(const char *str)  
{  
register size_t hash = 0;  
size_t magic = 63689;     
while (size_t ch = (size_t)*str++)  
{  
hash = hash * magic + ch;  
magic *= 378551;  
}  
return hash;  
}
 
size_t operator()(const string& key)
{
return RSHash(key.c_str());
}
};
 
template<class K= string, class HashStr1 = HashString1,
 class HashStr2 = HashString2, class HashStr3 = HashString3>
class BloomFilter//简单的布隆,无引用计数,不能实现Rset
{
public:
BloomFilter(size_t n)
:_bs(n*6)
,_size(n*6)
{
}
 
~BloomFilter(){}
//set,test
void Set(const K& num)
{
size_t pos1 = HashStr1()(num);//仿函数要创造临时对象
size_t pos2 = HashStr2()(num);
size_t pos3 = HashStr3()(num);
 
_bs.Set(pos1%_size);//pos1可能会大于_size
_bs.Set(pos2%_size);
_bs.Set(pos3%_size);
 
}
 
bool Test(const K& num)
{
size_t pos1 = HashStr1()(num);
if(!_bs.Test(pos1%_size))
return false;
 
size_t pos2 = HashStr2()(num);
if(!_bs.Test(pos1%_size))
return false;
size_t pos3 = HashStr3()(num);
if(!_bs.Test(pos1%_size))
return false;
 
return true;
}
protected:
Bitset _bs;
size_t _size;//计数
};
 
void TestBloom()//测试布隆过滤器
{
BloomFilter<> _bf(1000);
 
_bf.Set("solf");
_bf.Set("sort");
_bf.Set("good");
_bf.Set("parent");
_bf.Set("uhper");
 
cout<<"solf?"<<_bf.Test("solf")<<endl;
cout<<"sort?"<<_bf.Test("sort")<<endl;
cout<<"ptres?"<<_bf.Test("ptres")<<endl;
cout<<"parent?"<<_bf.Test("parent")<<endl;
cout<<"uhper?"<<_bf.Test("uhper")<<endl;
}
run.cpp
#include<iostream>
using namespace std;
 
#include"BloomFilter.h"
 
int main()
{
cout<<"***测试布隆过滤器***"<<endl;
TestBloom();//测试布隆过滤器
 
system("pause");
return 0;
}

而当大数据中的数据实在太大,即使使用位图也无法在内存中放下,或者需要确定某数是否存在以及统计次数时(暂不适合用位图时),就需要用哈希切分,把一个大数据文件切分为若干内存能够容纳的小文件分别进行相应的操作等等,完成既定目标。
哈希切分思路:
预计把文件N分能够存放到内存(因为哈希切分的文件不一样大,所以尽量把文件分的多一点点),把文件中的对象用哈希字符串转换的方式转化,再分别映射到相应的文件编号,即把该对象写入该文件。知道吧大数据文件全部哈希切分成N个适合大小的文件即可。
但如果只是随意切分,可能依旧可能达不到切分处理的效果,内存可能还是无法存放文件对象并进行相应的操作,也就无法完成哈希切分的目的。


but,有些时候,完成一个目的不一定只有一种方法,条条大路通罗马,算法种类繁杂,多种多样,需要多学习多联系,如果你有更好的思路,期待一起分享探讨。

分享到此为止,thanks!愿各位学得开心!
<think>好的,用户想了解C++中位图布隆过滤器的相关知识及总结,我需要结合提供的引用资料来组织回答。首先,我应该先明确位图布隆过滤器的基本概念,然后讨论它们的实现应用,最后总结它们的优缺点应用场景。 首先看位图部分。根据引用[3],位图用于处理海量数据的存在性判断,比如40亿个整数去重。位图通过每个bit位表示一个数据是否存在,节省空间。需要提到位图数据结构设计,比如用vector<bool>或直接操作比特位。实现部分可能需要给出C++的代码示例,比如设置某位为1,清除为0,检查存在性。应用方面包括快速查找、去重、排序等,引用[2][3]都有提到这些应用。 然后是布隆过滤器。根据引用[4],布隆过滤器是概率型数据结构,用于判断元素可能存在或一定不存在。它使用多个哈希函数映射到不同的位,引用[3][4]都提到了这一点。实现部分需要说明插入查找的过程,以及为什么不能删除,或者如何支持删除(可能需要引用计数)。应用方面,引用[5]提到了缓存穿透的解决方案,防止数据库被无效查询压垮。此外,分布式系统爬虫中的URL去重也是常见应用。 需要注意布隆过滤器的优缺点,比如空间效率高但存在误判率,无法删除元素等。引用[4][5]都有相关描述。可能需要比较位图布隆过滤器的适用场景,比如位图适合精确判断且数据范围小的情况,而布隆过滤器适合大数据量且允许一定误判的情况。 代码实现部分,位图可以用bitset或手动操作位,布隆过滤器则需要多个哈希函数位图的组合。需要确保示例代码正确,比如展示如何设置位,检查存在性,以及布隆过滤器的插入查询步骤。 最后总结部分,需要将位图布隆过滤器的核心点对比,强调它们在海量数据处理中的重要性,并结合引用中的内容,如引用[1]提到的结合位图布隆过滤器的方案,可能可以提到这种混合结构在优化空间查询速度上的优势。 现在需要检查是否有遗漏的引用内容,比如引用[1]提到结合位图布隆过滤器的优点,这可能是在实际应用中的优化策略,需要在总结部分提到。同时,用户要求生成相关问题,需要根据内容设计相关问题,比如应用场景、实现细节、优缺点比较等。 需要注意回答的结构,先讲位图,再讲布隆过滤器,每个部分包括概念、实现、应用,最后总结对比。确保引用标识正确添加,例如在提到布隆过滤器概念时加上[^4],在缓存穿透时引用[^5]等。</think>### C++位图布隆过滤器总结 #### 一、位图(Bitmap) **1. 概念与实现** 位图通过每个比特位(bit)表示一个数据的存在性(0/1),适用于海量数据的快速存在性判断[^3]。例如,40亿个整数(约16GB)用位图仅需约500MB内存。 **C++实现示例**: ```cpp class Bitmap { private: std::vector<uint32_t> bits; // 使用uint32_t数组存储位 public: Bitmap(size_t range) : bits((range >> 5) + 1, 0) {} // 计算需要多少32位块 void set(size_t x) { size_t index = x >> 5; // 确定数组下标 size_t offset = x % 32; // 确定比特位偏移 bits[index] |= (1 << offset); } bool test(size_t x) { size_t index = x >> 5; size_t offset = x % 32; return (bits[index] & (1 << offset)) != 0; } }; ``` **2. 应用场景** - **数据去重**:如统计40亿整数中不重复的数字。 - **快速查询**:判断IP是否在黑名单中。 - **排序**:对有限范围的整数进行非比较排序[^2]。 --- #### 二、布隆过滤器(Bloom Filter) **1. 概念与实现** 布隆过滤器通过$k$个哈希函数将元素映射到多个位,若所有对应位为1则“可能存在”,否则“一定不存在”[^4]。牺牲一定准确性换取极高的空间效率。 **C++实现核心逻辑**: ```cpp class BloomFilter { private: Bitmap bitmap; size_t k; // 哈希函数数量 public: BloomFilter(size_t size, size_t k) : bitmap(size), k(k) {} void add(const std::string& key) { for (size_t i = 0; i < k; ++i) { size_t hash = std::hash<std::string>{}(key + std::to_string(i)); bitmap.set(hash % bitmap.size()); } } bool contains(const std::string& key) { for (size_t i = 0; i < k; ++i) { size_t hash = std::hash<std::string>{}(key + std::to_string(i)); if (!bitmap.test(hash % bitmap.size())) return false; } return true; // 可能存在(有一定误判率) } }; ``` **2. 应用场景** - **缓存穿透防护**:拦截不存在的数据请求,保护数据库。 - **分布式系统**:减少节点间冗余数据传输。 - **爬虫URL去重**:避免重复抓取已处理的页面[^3]。 **3. 优缺点** - **优点**:空间效率高,查询时间$O(k)$,适合海量数据[^4]。 - **缺点**:误判率随元素增加而上升,且不支持删除(除非引入计数布隆过滤器)。 --- #### 三、对比与总结 | **特性** | **位图** | **布隆过滤器** | |------------------|------------------------------|------------------------------| | **数据范围** | 适用于整数且范围较小 | 支持任意数据类型 | | **误判率** | 无 | 有(可调整哈希函数数量优化) | | **删除支持** | 直接修改位即可 | 需额外结构(如计数位图) | | **典型场景** | 精确存在性判断 | 允许误判的存在性预筛 | **混合优化方案**:结合位图布隆过滤器,例如用位图处理高频数据,布隆过滤器处理低频数据,提升整体性能[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值