Count-Min Sketch

An Improved Data Stream Summary: The Count-Min Sketch and its Applications

目的: 解决大数据中的频繁项(Heavy Hitters)问题(参考大数据流的在线Heavy Hitters算法(上篇):基于计数器的方法-优快云博客)

核心思想: 可以把CMS看成一个二维(w*d)的布隆过滤器,每个hash函数一行(h1...hd,共d列),新数据项到来时,h1-hd计算各自的哈希值,然后每行都更新对应位的计数值。

估计某元素i的出现频率,方法是直接取元素i对应的不同行哈希桶中,计数值最小的那个。

(因为有碰撞,所以是近似准确)

这里w=⌈e/ε⌉, d=⌈ln⁡(1/δ)⌉,即在 1−δ 的概率下,总误差(所有元素查询误差的之和)小于 ε 。

证明过程就不写了,网上很多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值