
bigdata other
bitcarmanlee
这个作者很懒,什么都没留下…
展开
-
BloomFilter, Count-Min Sketch算法
1.bloom filter布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。2.两种错误率FP/FNFP = A false positive error, or in short a f...原创 2020-03-08 21:48:35 · 2625 阅读 · 1 评论 -
HyperLogLog浅析
1.伯努利实验如果我们不断投掷一个硬币,而且该硬币是均匀的,每次投掷出现正反面的概率相等都为0.5,知道我们得到第一个正面,假设这个过程为一次伯努利过程。那么,投掷一次硬币就得到正面的概率为1/2,投掷两次硬币得到正面的概率为1/4。现在有如下两个问题:1.如果进行上述n次伯努利过程,所有投掷次数均不大于k(每次都小于k)的概率是多少?2.如果进行上述n次伯努利过程,至少有一次不小于k(至...原创 2020-03-05 22:13:19 · 720 阅读 · 1 评论 -
使用消息队列的十大理由
过去几年中,我们一直在使用、构建和宣传消息队列,我们认为它们是很令人敬畏的,这也不是什么秘密。我们相信对任何架构或应用来说,消息队列都是一个至关重要的组件,下面是十个理由:解耦 在项目启动之初来预测将来项目会碰到什么需求,是极其困难的。消息队列在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。转载 2016-04-14 17:07:58 · 1968 阅读 · 0 评论