FlajoletMartin

最新推荐文章于 2019-06-18 22:03:41 发布

原创最新推荐文章于 2019-06-18 22:03:41 发布 · 393 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#FlajoletMartin #Massive dataset

本文介绍了FlajoletMartin算法的原理及实现过程，通过构造多组hash函数来估算数据流中的不同元素数量。文中详细解释了如何计算hash值及其尾随零长度，并通过Java代码示例展示了算法的具体应用。

FlajoletMartin 算法

原始算法：

"Mining Massive dataset"中介绍的改进过程：

3-4. 构造m组hash函数，每组n个函数。对每个字符计算hash值，h11,...,h1n, h21,...,h2n,..., hm1,...,hmn

4. for each hij, get its 0-tailing length:

private int rho(long v) {

int rho = 0;

for (int i = 0; i < m_bitmapSize; i++) { // size of long=64 bits.

if ((v & 0x01) == 0) {

v = v >> 1;

rho++;

} else {

break;

}

return rho == m_bitmapSize ? 0 : rho;

}

rho(hij) -> k (in {1,...,64})

Keep a bitset Xij, set Xijk<- 1.

After the stream finishes, calculate X(hij)= k; Xijk is the first 0 in {Xij1, ..., Xij64};

for each group i, calculate the avage value of {X(hii), ... }.

5. calculate the median result among the groups, that is R

java代码参见：

https://github.com/rbhide0/Columbus/blob/master/src/main/java/rbhide0/streaming/algorithm/FlajoletMartin.java

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_393

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Flajolet-Martin算法

白马负金羁

08-17

5946

今天我们来介绍著名的Flajolet-Martin算法法，它被用来估计集合中（也就是不重复的）元素的个数。尽管这是一种在上世纪80年代被提出的算法，但是今天这个时代再来探讨它似乎更有意义，因为它是一种真正的“大数据”算法

实时分析网站UV与Flajolet-Martin算法

jsky_studio的专栏

04-06

1879

最近在学习如何解决大数据流中的独立元素计数问题。这么讲起来有点抽象，一个很典型的例子是如何实时计算或者估计网站UV。针对类似问题，很容易想到一个简单的办法：我们可以先对数据排序，然后再统计。可这种方法却无法应对大数据现实，因为在大数据场景下，诸如网站UV的数值，每天可能达到上亿，这就导致计算的时间及空间复杂度很高，因而很难满足实时要求。 Flajolet-Ma

参与评论您还未登录，请先登录后发表或查看评论

数据流挖掘_Flajolet-Martin算法

一个IT菜鸟的自白

05-12

3686

在实际应用中，我们经常碰到这种情况，即要统计某个对象或者事件独立出现的次数。对于较小的数据量，这很容易解决，我们可以首先在内存中对序列进行排序，然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n))，扫描时间复杂度为O(n)，所以总的时间复杂度为O(n*log(n))。当内存非常充裕时，我们还可以考虑使用哈希，将时间复杂度降到O(n)。尤其是当元素只能取有限范围的整数值时，我

基数估计算法(一)：Flajolet-Martin算法

wbin233的博客

12-06

8546

写作不易，转载请注明出处: http://blog.youkuaiyun.com/wbin233/article/details/78730977 简介说起基数估计算法的始祖，或许就是由Flajolet和Martin大佬发表的论文《 Probabilistic counting algorithms for data base applications 》开始的吧。他们提出在大数据中基于概率来估计基数的算法，江湖人称FM算法。

基数估计探秘：Linear Counting与Flajolet-Martin算法

LittleMagic's Blog

06-18

1905

前言看官可以先拿出大学《概率论与数理统计》教材翻一翻，反正我是复习过才写的（逃基数统计简介什么是基数？一个（有限）集合S里不同的元素个数就称为该集合的基数（cardinality），也叫做“势”，记为|S|。例如，S={"西红柿", "土豆", "胡萝卜", "土豆", "洋葱", "西红柿"}，那么|S|=4。在我们的日常工作中，经常碰到需要统计基数的情境。最常见的就是...

美的同一性和神秘的算法分析

天魔传人的博客

02-13

723

1977 年法国人 Philippe Flajolet 发表了一篇评估计算机展开算术表达式平均所需寄存器数量的论文 [1]。同年，普林斯顿的 Rebert Sedgewick 向 SIAM 投递了一篇讨论奇偶归并排序的文章 [2]，其中给出了数据在排序过程中平均交换次数的简洁表达式。Sedgewick 通过渐进分析获得的这个表达式后来被发现和 Flajolet 用于评估寄存器数量的式子具有同一

Flajolet-Martin算法及其应用

Sigh～

09-01

6324

基于GEC6818平台的五子棋人机对战系统设计与实现

11-25

五子棋作为一种广为人知的策略性棋盘游戏，其基本规则易于掌握。在选定人机对战模式后，由程序执黑先行，用户执白应对。双方依次在棋盘上落子，任何一方在横向、纵向或斜向形成连续五个或更多同色棋子即获胜。项目资源涵盖多个技术领域的程序代码，涉及前后端开发、移动终端应用、操作系统、智能系统、物联网技术、信息管理系统、数据存储方案、硬件设计、大数据处理、教学资料、多媒体处理及网站构建等多个方向。具体技术实例包括嵌入式平台如STM32与ESP8266，编程语言如PHP、QT、C++、Java、Python、C#，系统开发如Linux与iOS，以及电子设计自动化工具和实时操作系统等。主要技术栈包含服务端开发语言Java、Python及Node.js，后端框架Spring Boot与Django，前端技术React、Angular与Vue，界面设计框架Bootstrap与Material-UI，数据库系统MySQL、PostgreSQL和MongoDB，缓存工具Redis，以及容器化部署方案Docker与Kubernetes。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

lv_0_20251125195629.mp4

11-25

lv_0_20251125195629.mp4

numpy、pandas、sklearn、pytorch等数据分析工具的一些使用技巧

11-25

NumPy数组操作实战技巧 numpy、pandas、sklearn、pytorch等数据分析工具的一些使用技巧

中国Cassandra数据库用户组开源社区项目-专注于Apache-Cassandra分布式NoSQL数据库技术研究与实践-提供技术文档下载与源码解析-集成Titan图数据库与Lu.zip

最新发布

11-25

Buffer内存管理实战技巧中国Cassandra数据库用户组开源社区项目_专注于Apache_Cassandra分布式NoSQL数据库技术研究与实践_提供技术文档下载与源码解析_集成Titan图数据库与Lu.zip中国Cassandra数据库用户组开源社区项目_专注于Apache_Cassandra分布式NoSQL数据库技术研究与实践_提供技术文档下载与源码解析_集成Titan图数据库与Lu.zip

图像处理基于电磁学优化算法的多阈值分割算法研究（Matlab代码实现）

11-25

【图像处理】基于电磁学优化算法的多阈值分割算法研究（Matlab代码实现）内容概要：本文研究基于电磁学优化算法（Electromagnetism-like Optimization, EMO）的多阈值图像分割方法，并通过Matlab代码实现。该方法借鉴电磁学中电荷间相互作用的机制，将图像分割问题转化为优化问题，利用EMO算法搜索最优阈值组合，以最大化分割效果的评价指标（如Otsu法或多级别熵）。文中详细介绍了EMO算法的基本原理、实现步骤及其在图像多阈值分割中的具体应用流程，展示了该算法能够有效避免传统方法易陷入局部最优的问题，从而获得更精确的分割结果。; 适合人群：具备图像处理基础知识和Matlab编程能力的高校学生、科研人员及工程技术人员。; 使用场景及目标：①解决复杂背景下图像的多目标分割问题，提升医学影像、遥感图像等领域的分割精度；②学习智能优化算法（如EMO）在图像处理中的实际应用，为研究新型分割算法提供技术参考和实现范例。; 阅读建议：在学习过程中应结合Matlab代码，深入理解EMO算法的寻优机制与图像分割评价函数的构建方法，建议自行调试不同参数对分割效果的影响，以加深对算法性能的理解。

DriverBooster12pro

11-25

DriverBooster12pro

Java8与Java21切换方法[项目代码]

11-25

本文介绍了如何通过设置环境变量实现Java8与Java21版本的自由切换，避免反复卸载安装。具体步骤包括分别安装Java8和Java21，设置JAVA_HOME环境变量指向所需版本，并调整Path变量中的路径顺序。此外，还提供了版本切换失效的解决方法，如重新打开cmd窗口或调整Path中路径的优先级。最后，文章提到了残留问题，如javac -version显示旧版本及java -version始终显示8版本的情况。

基于机器学习的糖尿病风险预测系统源码实现（含详细注释）

11-25

本研究提供一套运用机器学习技术进行糖尿病风险预测的系统源代码，该成果在学术评审中获得优异评价。程序结构清晰且附带详尽注释，便于初学者理解与应用。系统界面设计直观，功能模块完备，支持管理员高效管理操作。经过多轮严格测试验证，系统运行稳定可靠，具备显著的实践推广价值。本资源适用于毕业设计、课程结业作业及学术研究等场景，部署流程简单快捷，下载后即可直接投入教学或科研使用。所有程序文件均已完整包含在项目包内，确保开箱即用的便捷性。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

彩虹易支付快手支付插件 – 支持微信支付宝

11-25

这是一款彩虹易支付快手支付插件支持微信/支付宝支付，已适配彩虹易支付2025/06/02：3088 版本，将压缩包丢到网站根目录解压覆盖替换。进入后台支付接口->>支付插件->>刷新支付插件，喜欢的自行部署吧！

chrome142版本无更新组件安装包

11-25

chrome142版本无更新组件安装包

VIVADO AXI DMA SG模式解析[项目代码]

11-25

本文详细介绍了VIVADO官方AXI DMA模块在Scatter/Gather（SG）模式下的工作原理与应用。内容涵盖了AXI DMA的结构框图、引脚功能描述、寄存器内存地址映射以及SG描述符的详细说明。文章还提供了SG模式下典型的系统连接结构和使用流程，包括MM2S和S2MM端的操作步骤。此外，还介绍了VIVADO实际工程实现中的系统框图、各模块参数设置以及SDK工程实现中的重点结构体和代码逻辑。最后，文章提到了中断设置和实现代码的相关内容，为读者提供了全面的技术参考。

tree.js实现3D效果[可运行源码]

11-25

本文介绍了如何使用tree.js实现3D效果，包括官网demo的展示和代码示例。官网demo展示了一个自动旋转的正方形，通过创建场景、相机、渲染器和立方体，并设置材质和动画效果，实现了3D模型的动态展示。此外，文章还提供了画一条线的代码示例，通过创建几何体、线材质对象和场景，实现了简单的3D线条绘制。这些示例展示了tree.js在3D图形处理方面的强大功能，适合开发者学习和参考。

【车间调度FJSP】基于全球邻域和爬山优化算法的模糊柔性车间调度问题研究（Matlab代码实现）

11-25

【车间调度FJSP】基于全球邻域和爬山优化算法的模糊柔性车间调度问题研究（Matlab代码实现）