
图片来源 https://stackoverflow.com/questions/6811351/explaining-the-count-sketch-algorithm/35356116#35356116
CountMinSketch 是一种“速写”算法,能够使用较小的空间勾勒出数据集内各类事件的频次。比如,我们可以统计出当前最热门的推特内容,或是计算网站访问量最大的页面。当然,这一算法同样会牺牲一定的准确性。
算法会建立一张二维表

使用过程会不断计算hash值 然后循环往width(理解成一个数组)里面添加 (如果数据量 大于这个width 数据会不准确)
最后每一个深度的width(数组都会执行上面这个操作)
取值时会取每一个width里面数据最少的那条(hash可能会冲突嘛 最少这个比较准)
IFrequency freq =

CountMinSketch是一种数据速写算法,用于在有限空间内估算数据集的频次。它适用于实时统计热门内容或计算高访问量页面。尽管存在精度损失,但通过计算hash值并存储在宽度为width的数组中,可以实现高效内存使用。当需要取值时,选取每个宽度中最小的hash值以减少冲突影响。例如,深度为100万、宽度为100万时,所需内存约15MB。在实际应用中,可以用来跟踪两条记录的出现次数和一条记录的出现次数。
最低0.47元/天 解锁文章

37

被折叠的 条评论
为什么被折叠?



