在前面我们谈到了独立元素计数的问题。在本文中,我们将独立元素计数问题推广到更一般的问题,也就是矩估计问题。我们将先介绍矩的定义,然后介绍一个无偏的估计方法,最后介绍如何改进结果。这里还是讨论内存容量不够的情况。
一、矩估计
如果一个数据流,其中m为数据流的大小,
。我们可以定义每个元素
出现的次数为,其中
为第i个元素出现的次数。则流的k阶矩(k-th moment)
本文深入探讨了数据流中的矩估计问题,从0阶矩到二阶矩,解释了矩在衡量数据分布均匀性中的作用。介绍了基于随机选取位置的无偏估计算法,通过蓄水池抽样实现,并证明了其无偏性和方差公式。最后,提出了通过多次运行取均值中位数来改进结果的方法,以减小偶然因素的影响。
如果一个数据流,其中m为数据流的大小,
。我们可以定义每个元素
出现的次数为,其中
为第i个元素出现的次数。则流的k阶矩(k-th moment)
4408
6277

被折叠的 条评论
为什么被折叠?