Sketch介绍
为什么要用Sketch
- 网络流主要根据五元组、主机地址、包的大小来分类。在网络中存在各种各样的包,如果按照上述分类方法,对每一种包都分配一个计数器来储存,虽然测量准确,那么存放计数器的空间开销会非常大。所以使用哈希的方法,根据哈希值的范围来确定的所需的存储空间,各种包根据哈希值再次归类,可以大大减少存储空间。这样使用哈希来估计流的方法称为Sketch-based方法。
Count-min sketch
如何处理包
- 使用哈希的方法会产生冲突,多个种类的包哈希到同一个桶内,那么这个桶的计数值就会偏大,为了减少误差,设计了count-min sketch
- 设置多个哈希函数,开辟一个二维地址空间,包经过不同哈希函数的处理,得到对应的哈希值,而这个哈希值就是sketch(概要)。这些哈希值可能产生冲突,多个种类的包可能有相同的哈希值,则根据哈希值来确定包出现的次数则会偏大,所以设立多个哈希函数,取最小的哈希值,则最接近实际包数据。

count-min sketch 某种实现
class CountMinSketch {
long estimators[][] = new long[d][w] // d and w are design parameters
long a[] = new l