数据流基本问题--独立元素计数（二）

原创

于 2015-05-24 18:16:28 发布 · 1.6k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据流 #独立元素计数 #哈希

本文延续了上一篇关于数据流中独立元素计数的问题，提出了一种改进算法，通过记录满足条件的元素并利用哈希技术进行优化，以估算流中的独立元素数量。算法在空间效率和近似准确性之间取得平衡，并通过数学分析证明了其对d的-近似性质。当不存在哈希冲突时，结果可视为精确解。

该篇文章中问题的定义和上一篇文章《数据流基本问题--独立元素计数（一）》中一样。不过该篇文章里能给出 $(\epsilon ,\delta )$ -近似的算法。

一、算法的基本思想

该篇文章中的算法是上一篇文章中算法的改进。这里不再记录流中元素zeros(h(j))的最大值，而是将满足所有 $zeros(h(j))\geq z$ 的元素放入到B中。如果流中有d个独立元素，那么平均会有 $\frac{d}{2^z}$ 个元素满足 $zeros(h(j))\geq z$ 。所以 $|B|2^z$ 应该是d的一个比较好的估计（|B|指的是B中元素总数目）。

二、算法的具体过程

算法的伪代码如下图所示。将一个元素j添加到B中时，是以g(j)和zeros(h(j))组成一对加进去的。没有直接存元素而是存元素哈希后的结果是为了节省空间的考虑。而且也存放zeros(h(j))是为了当B需要删除元素时需要用到它。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。